お使いのブラウザは最新版ではありません。最新のブラウザでご覧ください。

CNET Japan ブログ

リンク分析に関する検索アルゴリズムの変遷 (1) PageRankの問題点

2006/05/01 01:05
  • このエントリーをはてなブックマークに追加

プロフィール

渡辺隆広

日本でSEOを始めた第一人者として知られるアイレップサーチエンジンマーケティング総合研究所 所長の渡辺隆広氏が、競争の激化する検索市場をビジネス、マーケティング、テクノロジーの各方面から掘り下げます。
ブログ管理

最近のエントリー

近年検索エンジンの問題点としてよく指摘される「リンクの評価」について考えてみます。まず検索会社がリンク分析のアルゴリズムをどのように改善していったのか、その変遷をわかりやすく解説していきます。

私たちが日常的に利用しているGoogleやYahoo!といったウェブ検索の多くが、適切な検索結果を表示するために用いる検索アルゴリズムの要素にリンク分析を採用しています。例えばGoogleでいえばPageRankがよく知られています。1990年代後半に検索エンジン(例えばインフォシークや千里眼、hole-in-oneなどなど)を利用した経験のある方ならご存知の通り、当時の検索エンジンは会社名やブランドで検索しても該当サイトを1位に表示できないほど性能が悪いものでした(代わりに、METAタグを悪用したアダルトサイトが検索上位を占拠していました)。そこにPageRankをひっさげたGoogleが登場し、多くのユーザーの支持を集め現在の地位にいたるわけですが、そもそもリンク分析は本当に有効に機能しているのでしょうか?

今回はPageRankとその問題点について触れてみましょう。

"Authority"を発見するためのアルゴリズム

PageRankに代表されるリンクのつながり(コネクティビティ)を分析するアルゴリズムというのは、インターネット上における個々のWebページの価値(重要度)を特定する技術であり、どれが重要な(Authority)ページでどれが重要でないかを区別するための技術です。例えば数百万ページのインデックスの中から「りんご」という言葉を含むページを探そうとすると、合致するページは膨大になるでしょう。しかし私たちはその一致するページを全て欲しいわけではありません。その中でも「りんご」に本当に合致する価値あるページを欲しいのですし、同時に重要な順番に並び替えてほしいわけです(検索結果の1ページ目、2ページ目程度までしか見ないというユーザーの検索行動にそれが表れています)。したがって、リンク分析によってページをスコアリングして重要なページとそうでないページを判断するわけです。

PageRankの基本的な考え方

最初にPageRankについておさらいをしておきます。PageRankはリンクを支持投票とみなして、ページ(A)からページ(B)にリンクが張られた時にページ(B)はページ(A)により投票されたと判断して点数を加算します。しかし全ての支持投票が同じ価値を持つわけではなく、より多くの支持投票を得ているページからのリンクは相応に価値あるものとして取り扱います。

従って、ここにページ(o)と(q)があり、ページ(o)は50の被リンクを持ち(q)は25の被リンクを持つとすれば単純に計算して(o)がより価値あるページと判断されます。もしも(q)の持つ被リンクの25が各々に実は(o)の被リンクよりも価値があると過程すれば、(q)が(o)よりも価値あるページと判断されるでしょう。

PageRankの問題点

PageRankは確かに登場時点ではすばらしかったのですが、検索品質を高めるという点において十分だったわけではありません。問題は、PageRankが算出する重要度とはネット全体のおける相対的かつ普遍的な重要度であって、検索クエリに対する相対的な重要度を算出していない点です。

例えば次の例を考えてみましょう。「料理レシピ」の話題を扱っているWebページ(A)と(B)があったとします。(A)(B)はそれぞれ次の表の通り、他のページからそれぞれ10本、5本のリンクを受けていました。

ページ(A)にリンクを張った10のページ
1. 中古バイクのページ
2. お花見のページ
3. キャッシングのページ
4. 自動車保険のページ
5. 携帯電話のページ
6. 観光案内のページ
7. 料理の専門学校のページ
8. ノートPC専門店のページ
9. 旅行かばんのページ
10.プラズマTVのページ

ページ(B)にリンクを張った5のページ
1. お弁当のためのレシピページ
2. インドカレーの作り方のページ
3. 5分で学べる料理のページ
4. 料理レシピ紹介ページへのリンク集
5. おいしいご飯の食べ方のページ

この場合、他の全ての条件が同一であると仮定すれば、PageRankの仕組み上ページ(A)がページ(B)よりも重要であると判定し、したがって「料理レシピ」と検索すれば (A)を上位に出すでしょう。なぜなら (A) は (B) よりも多くのページからリンクを受けているからです。しかしPageRankが出したこの回答は、適切でしょうか?

「料理レシピ」と検索したユーザーはきっと、料理レシピについて記述されているページを探しているに違いありません。そして、料理レシピを扱ったページ群の中でも価値あるページを見つけ出したいでしょう。つまり「料理レシピ」と検索したユーザーに提示すべきは「料理レシピにおける相対的に重要度の高いページ」のはずです。しかしPageRankが実際に算出しているのはネット上のWeb全体における相対価値なのです。ここにギャップがあります。

つまり「格安航空券」であれば航空券の話題を扱ったページの中でも価値あるページを、「建築基準法」であれば建築基準法の話題を扱ったページの中でも価値あるページをといったように、実際の検索サービスでユーザーに提示すべき「価値あるページ」とは検索クエリによってその比較対象が変化するはずです。ページの価値はユーザーが求める情報、検索クエリによって変化すべきです。しかしPageRankは検索クエリとは独立した、普遍的な価値しか算出していない点が問題となるのです。

この問題を解決するために、検索会社はどのような対応を行ったかについて次回触れます。

※このエントリは CNET Japan ブロガーにより投稿されたものです。朝日インタラクティブ および CNET Japan 編集部の見解・意向を示すものではありません。
運営事務局に問題を報告

最新ブログエントリー