お使いのブラウザは最新版ではありません。最新のブラウザでご覧ください。

CNET Japan ブログ

Yahoo, Googleサーチ結果比較ツール

2004/05/27 16:19
  • このエントリーをはてなブックマークに追加

プロフィール

inoue

1998年からポータル会社のエンジニアリングのトップとして業界を見続けてきた井上俊一さんが、サーチエンジンの本質について考え、業界を取り巻く状況について独自のコメントを行います(このブログの更新は2004年5月31日で終了しました)。
ブログ管理

最近のエントリー

Yahoo Search TechnologyがGoogleを打ち負かすべく改良を続けているが、YahooとGoogleのサーチ結果を一発で比較できる便利なサイトがあるのでご紹介する。Yahoo, Google以外にもAlltheweb, Altavista, MSN, Teoma, Wisenut と合計7つのサーチエンジンの比較が出来るのでサーチエンジン好きには面白い。

そのサイトはThumbshots Rankingだ。

デフォルトがGoogle versus Yahoo になっている:)

ここで色々なクエリーを入れて試して見るとサーチ結果がどれ位重複しているかが分かる。また同じサイトを線で結んでいるのでGoogleの8番目がYahooでは14番目に来ると言ったことが視覚的に捉えられる。例えば"Tiger Woods"で検索するとこのようになる。トップ100件で重複が26%という結果になった。

もともとThumbshots.comがウェブサイトのサムネイル画像を扱うサイトのため、Thumbshots Rankingでもサーチ結果にマウスオーバーするとサムネイル画像が出てくる(全てのサイトにサムネイルが出るわけではないようだ)。

Yahoo Results Getting More Similar to Google, SearchengineJournal.com, 2004/5/18

上記の記事によると

There is about 40% overlap in the top 20 results for popular queries taken from Google Zeigeist. The overlap study focuses on the top 20 results because most users do not go beyond the second search results page. Ben Elgin of BusinessWeek acknowledges Yahoo?s improvement. “Today, that lead has narrowed, with Yahoo?s new search engine almost as good as Google".

Google Zeigeistに出てくる人気クエリーに対してサーチ結果の上位20位までを比較すると、GoogleとYahooのサーチ結果は40%重複するとある。「YahooはGoogleとの差を縮めている」となっている。しかし、重複が多いことはサーチ結果のクオリティとは違うので、そのあたりを少し説明しよう。

サーチ結果のRelevancy調査方法

日本では昔から検索デスクの浅井さんが検索力なるものを独自に考案して定期的にレポートしてくれており昔から楽しみに見ている。

Relevancyの評価方法が説明されていないので残念なのだが、結果は実力を表したものになっていると思う。

非常に重要なのは、どのような基準でも良いが同じ尺度で評価を続けると言うことにある。その点、浅井さんは1996年から検索力を調べ続けているわけで全く頭の下がる思いである。

さて、サーチ結果のRelevancyつまり関連性の高さを評価するのは一筋縄では行かない。当然、各サーチエンジン会社には独自の手法があるだろう。先ほど紹介したThumbshots Rankingのように「サーチ結果のトップ100の重複度が上がったからと言って、二つのサーチエンジンが似ているとは言えない」ということにはすぐに気付くだろう。

例えば重複度100%でも順位が変われば印象は全く異なる。Googleは1〜100の順に表示し、Yahooでは100〜1の順に表示したらどうなるだろう。この場合、Yahooは全く使えないサーチエンジンということになってしまう。これが20位まででも同じことだ。1〜20位を20〜1位の順に表示したら、誰も使わないだろう。

ここまで言うと具体的にイメージがわくと思うがサーチエンジンにとって一番重要なのは順位なのだ。
順位こそRelevancyを計る尺度に取り入れるべき要素だ。

もちろん、各サーチエンジン会社はそのような独自の尺度で自分たちおよび競合のサーチ結果を常に比較している。各社非公開なので具体的な詳細は不明だが、基本的には順位に重み付けを行って評価することになる。

評価は人間がやることが望ましい。その人がクエリーに対してサーチ結果のURLをクリックし実際に中身を見た上で、Relevancyが高いと判断すれば良い点を付け、Relevancyが低いと判断すれば悪い点を付ける。このような作業を最低でも10人以上の人間を使って、色々なサーチエンジンの結果を混ぜた状態で点数を付けさせる。クエリーも最低でもランダムに100は試したい。Blind Evaluationなどと呼ぶが、このようにして集計したデータを基にサーチエンジンのクオリティーを表すいくつかの指標へ落とし込む。

先ほど順位が非常に重要と言ったが、例えば「Google」というクエリーに対して1番目にwww.google.co.jpが出てくるのと、3番目に出てくるのでは、明らかに前者が良いことが分かるだろう。そのような順位の違いを表すべく重み付けを行って実際の評価は行われる。

最後に忘れてならないのは

「ウェブサーチには正解がない」

ことだ。あるべきURLが出てこないなどと言うことは良くあるし、そもそもあるべきかどうか知っているのは関係者だけなので、出てこなければ大多数の人にとっては存在しないに等しいことになる。サーチエンジンが良いか悪いかを決めるのは最終的にはユーザーということになる。

-inoue

※このエントリは CNET Japan ブロガーにより投稿されたものです。朝日インタラクティブ および CNET Japan 編集部の見解・意向を示すものではありません。
運営事務局に問題を報告

最新ブログエントリー

個人情報保護方針
利用規約
訂正
広告について
運営会社