最終更新時刻:2008年5月15日(木) 20時45分

117

検索結果の「鮮度」が変わる、Google "QDF"アルゴリズムの仕組み

公開日時:
2008/01/30 18:04
著者:
渡辺隆広

前々回の記事「百度、本気で日本の検索エンジン市場に参入する けど」の本文中で、Googleの検索結果が同じキーワードでも朝と夜で変化するという話を書きましたが、それについて説明している日本語の記事があまりないので、ここで解説をしておきます。この技術はもともと、米New York TimesのGoogleへのインタビューの中で紹介されたもので、QDF(query deserves freshness)と呼ばれるものです。日本国内では2007年4月以降、Googleウェブ検索によく「5分前」「1時間前」「4時間前」といったラベルつきのリンクが掲載されることがありますが、これはQDFアルゴリズムによるものです。

---------------

GoogleやYahoo!で検索した時に私たちが目にする検索結果の並び順というのは、ある時点におけるウェブページのランク付けの結果に基づいたものだ。ウェブページのキーワードとの適合性や、それに張られたリンクの数や質など多数の要因に基づいて算出されたスコアに応じてレレバンシー(関連性、適合性)が判定されている。さてこの検索結果、表示されるリンク(ページ)というのは最近作られた新しいページが多く含まれている方がいいのか、それとも昔から存在する古いページの方がいいのだろうか?

これはユーザーが何を探しているか、またそのキーワードに関連する世の中の出来事やユーザーの関心事に大きく依存する。つまり、検索結果の鮮度は新しければいいわけでもないし、古いほうがいいわけでもない、それはその時点でユーザーが持ち合わせているクエリインテント(検索意図)に依存する。

例えば、1月30日の夕方時点で、asahi.comなどに中国製の冷凍ギョーザを食べたことで腹痛や吐き気を訴えた人がいるというニュースが流れている(記事名:中国製冷凍ギョーザで腹痛・吐き気 農薬混入か 千葉)。例えばこのニュースが報道された時に冷凍ギョーザという検索数が増えた時、そのユーザーのインテントはおそらく冷凍ギョーザの作り方やおいしいお店を探しているのではなくて、そのニュースに関連する話題だろう。同じく、私が所属するアイレップという会社が世界的に注目を浴びる技術を発表したとして、その後に「アイレップ」という社名での検索数が伸びた時、このユーザーはきっとこの発表に関する話題に関心があって検索したのだろうし、発表前にアイレップと検索していたであろう、採用やIRなどに関心があって検索したユーザーとはインテントが異なるはずだ。

こうしたケースでは検索結果の鮮度は高いほうがいい、つまり今リアルタイムでおきている出来事について触れている最新のウェブページが多めに出たほうが、ユーザーの認識するレレバンシー評価は高いはずだ。

一方、いまこのタイミングで「足利尊氏」や「織田信長」などと検索した場合、検索結果の鮮度は重要だろうか?おそらく歴史的事象について調査したいことがあって検索していると推定されるのであって、ウェブページの鮮度は問題にならないはずだ。

このように、検索結果の鮮度はユーザーのインテントに左右されることになる。

この検索結果の鮮度に対して1つの解決策を提示し、実行しているのがGoogle。Googleは "QDF" (Query Deserves Freshness)というアルゴリズムを用いている。

仕組みは次の通りだ。ある一定の期間において、ブログ記事やニュース記事の中で特定のトピックの出現量が増加した時、Googleはそれを「話題性あり(hot)」と判断し、検索結果中に最新の情報を持つ(鮮度の高い)ページへのリンクの割合を増やす。これはGoogleが監視する検索クエリの増減量と照らし合わせて判定する。

例えば、「東京都」というキーワードが毎日平均1万前後の検索回数があるとしよう。ある日、このキーワードの検索回数が急に100万回に増えた時、何らかの出来事により世の中のユーザーが同キーワード(話題)に関心を持ったために検索数が急増したと推定できる。従って、Googleは「東京都」をホットなワードと認識し、検索結果1ページあたりの最新ページの割合を増やす。

ユーザーが使用した検索キーワードが「話題性がある」と判定されている間は、新規・更新されたページが検索結果に表示されやすくなるし、話題性がないと判断される検索キーワードで検索した時に新しいページばかりになってしまうことはない。ユーザーのインテントにあわせて検索結果の鮮度が決定できる。米Googleエンジニア・Amit Singhal氏はQDFによる成果として、ニューヨークで停電が起きた時、それを報じた記事が15分後には検索可能だった事例を挙げている。

このQDFの仕組みによって、次のように検索結果は変わる。先述した「冷凍ギョーザ」と検索した時(2008年1月30日17時時点)や、先日の虚偽の大量保有報告書が登録された「テラメント」と検索した時(同報道が流れた直後)にGoogleで検索すると検索結果1ページ目の大半は記事公開後8〜3時間未満のページのリンクが占めていた。

ちなみに、こうした仕組みを持たないYahoo!は冷凍ギョーザのショッピングサイトへのリンクが多数を占めていたり、テラメントと検索すると2件しか表示しなかった(当時)した。MSN / Live Searchに至っては当時"テラメント”という文字列が存在しなかったため、 テ ラ メ ン ト と言葉を分解した上で一致したページが検索結果に表示されていた。Yahoo!はYahoo!ニュースと連携して、一部のニュースの話題については自然検索の上部にニュース記事へのリンクボックスを表示するが、よほど話題性が高いニュースでないと表示されない模様だ(Yahoo!ニュースのトピックスに掲載されている記事のキーワードで検索しても、それほどボックスは表示されない)。

検索技術は精度が高ければグローバルに適用できるものではなく、その国の文化や習慣、言語の問題によって品質は左右されることはある。だから欧米ではGoogleが強くても韓国や中国、日本といったアジア圏ではトップシェアを持っていない。とはいえ、グローバルで展開している故に優位性を発揮できる点も数多く持ち合わせており(例えば自動翻訳技術(Google翻訳)などは面白い)、とりわけ日本では携帯分野でGoogleが単純な携帯利用者数シェアで8割にリーチできることで国内でのプレゼンスも高まるだろうし、今後どこまで国内でシェアを伸ばせるか楽しみなところでもある。
Googleで「冷凍ギョーザ」と検索した時。○分前のラベルがついたリンクが多数表示される
「冷凍ギョーザ」で検索した時の検索結果、2008年1月30日17時。

 

[追記] QDFの解説を修正・追加しました (2008/01/30 14:30)

※このエントリは CNET Japan ブロガーにより投稿されたものです。シーネットネットワークスジャパン および CNET Japan 編集部の見解・意向を示すものではありません。

このブログについて

ブロガープロフィール

アーカイブ

2008年5月
    123
45678910
11121314151617
18192021222324
25262728293031

カテゴリ

ブログネットワーク

アルファブロガー

福徳俊弘のリッチ&リーチメディア論日米欧にみるメディア利用特性の差
福徳俊弘のリッチ&リーチメディア論
村上敬亮 情報産業の未来図絵画の価格高騰 〜批評家は間違えられない
村上敬亮 情報産業の未来図
ケータイ時代のスタンダードPRADA phoneパーティー
ケータイ時代のスタンダード
江島健太郎 / Kenn's Clairvoyance人に会わないということ
江島健太郎 / Kenn's Clairvoyance
末吉隆彦 ロケーションウェアの「空」と「実」Where2.0 2008が開催されます(5/12-14)
末吉隆彦 ロケーションウェアの「空」と「実」
渡辺聡・情報化社会の航海図MSFT、GOOGの決算とYHOO買収の動向
渡辺聡・情報化社会の航海図
佐々木俊尚 ジャーナリストの視点「実名」と「特定」は別のものだ
佐々木俊尚 ジャーナリストの視点

読者ブロガー

プライバシンキングCNET版個人情報持ち出し従業者に損害賠償
プライバシンキングCNET版
電子政府パブリックコメントの抜粋農薬散布用無人ヘリコプター(意見募集)
電子政府パブリックコメントの抜粋
中小ソフトハウスが下請け脱却を目指す時に読むブログ作らないソフトウェアが求める世界とは・・・
中小ソフトハウスが下請け脱却を目指す時に読むブログ
デジタルコンテンツビジネスの最前線MEFFYS 2008を受賞した携帯コンテンツ 〜音楽編〜
デジタルコンテンツビジネスの最前線
霧笛望のはぐはぐ電脳小物「暴力的ゲーム」が今更どうしたって!
霧笛望のはぐはぐ電脳小物
夢幻∞大のドリーミングメディアメディアはやっぱり屈折する
夢幻∞大のドリーミングメディア

企画特集

リスティング広告における競争優位性の維持リスティング広告における競争優位性の維持
ビジネスに直結したSEM戦略の最適化を検証していく
内部統制対策を実現するIT運用管理ツール内部統制対策を実現するIT運用管理ツール
IT運用管理手法として注目が高まる、ITILによる運用管理を紹介
-Simplify IT- ITをシンプルに 連載第2回-Simplify IT- ITをシンプルに 連載第2回
PowerEdgeサーバ〜Windows Server 2008モデル登場

新着コメント

きむこうさん、こんばんは。 うちはわりとザルなので大きなことは言えませんが、親の姿勢って大事ですよね?..
「暴力的ゲーム」が今更どうしたって! 
投稿者:kirifue
>それなしに、はじめにお金ありきじゃぁ・・・ まさしく。 でも…まさしく、まさしく… つまるところ、やっ...
ダビング10は延期に・・・ 
投稿者:tori
いつも江島さんのエントリを読ませていただくたびに,たぶんすごく覚悟の座ってる人なんだろうな,なんて想...
人に会わないということ 
投稿者:tsasaki
 kirifueさんが仰るとおり、 なんでもそうですが 親が子供に「(見たりする事も含めて)悪いことは悪い」 と...
「暴力的ゲーム」が今更どうしたって! 
投稿者:きむこう
私的録音補償金を集めているのは私的録音補償金管理協会です。 JASARCにはここから36%が割り振られますが、...
JASRACの2007年度著作権使用料の1,156億円のうち実際にアーティストに支払われているのは?? 
投稿者:つよし

ブログネットワークとは?

CNET Japan ブログネットワークは、元はCNET Japanの一読者であった読者ブロガーと、編集部の依頼により執筆されているアルファブロガーたちが、ブログを通じてオンタイムに批評や意見を発信する場である「オピニオンプレイス」、また、オピニオンを交換するブロガーたちが集うソサエティです。

広い視野と鋭い目を持ったブロガーたちが、今日のIT業界や製品に対するビジョンや見解について日々熱く語っています。

あなたもブログを書いてみませんか?

CNET Japanやその他サイトが提供するITニュースやコンテンツへの意見や分析、 ビジネスやテクノロジーに対するビジョンや見解について語っていただける方を 募集しています。ご応募はこちらから

ブログの投稿・管理

ブログの投稿はこちらから(※ブロガー専用)

ブログアワード2007開催決定!

今年最も活躍したブロガーを表彰します。詳細はこちらから

αマークって?

これは、CNET Japan 編集部の依頼に基づいて執筆されているCNET Japan アルファブロガーによるブログの印です。

Good!って?

CNET Japan ブログネットワーク内で拍手の代わりに使用する機能です。ブログを読んで、感激した・役に立ったなど、うれしいと思ったときにクリックしてください。多くGood!を獲得した記事は、より多くの人に読まれるように表示されます。

レビュー

[特集] Windows Vista SP1搭載の最新PCラインアップ
Windows Vista SP1搭載PCを選ぶ理由は何か。ここではWindows Vista SP1のメリットとおすすめPCを紹介しよう
[特集]2008年春 ビデオカメラフルラインナップ
「画質」でも「記録メディア」でも、さらには「保存方法」でも選べる今シーズンのビデオカメラ。その機能と
[レビュー]一番小さなホームシアター--パイオニア、サラウンドヘッドホン「SE-DRS3000C」
9.1chの重厚長大なシステムから、2.1chのコンパクトサイズまで、ホームシアターは今、あらゆる方向に商品を
顔認識の発展とひと味違うモデルの台頭--コンパクトデジタルカメラの動向を探る
コンパクトデジタルカメラが一般ユーザーに行き渡って久しい。一時は“デジカメの成長は終わった”などとも言
楽しさで選ぶか、個性を取るか?--デジタル一眼レフカメラ お薦めモデル
文字入力でネットを操るインターネットマシン--ソフトバンクモバイル「Internet Machine SoftBank 922SH」
今週の新製品総チェック:「PRADA Phone」がついに日本上陸
[レビュー]5万9800円の格安ミニノートPC--工人舎SAシリーズ「SA5KX08AL」
[レビュー]防水Xactiセカンドステージへ--三洋電機「Xacti DMX-CA8」