> >

リアルタイム検索の最新動向--精度向上に向けた主要各社の取り組み - (page 3)

文：Tom Krazit（CNET News）翻訳校正：川村インターナショナル2010年04月08日 07時30分

　その時点でGoogleは、検索結果ページの上位に表示させるものを判断するために、リアルタイムコンテンツソースの関連性の評価を開始する。ここでは3つのことが重要になる。1つめはコンテンツの質だ。つまり、コンテンツがスパムか本物かを区別する。2つめは、コンテンツの作者の信頼性という点だ。フォロワーの数だけでなくフォロワーの質まで評価するために、「PageRank」に似たアルゴリズムを使って判定する。3つめはセマンティック評価だ。これは、Googleの言語データを使用して、同じ文字が使われていても無関係のステータス更新を除外するものだ。例えば、「gm cars（General Motors製自動車）」と「gm foods（遺伝子組み換え食品）」を区別する。

先日サンディエゴとメキシコ北部を襲ったマグニチュード7.2の地震によって、Googleのリアルタイム検索ボックスが表示された。
提供：Tom Krazit/CNET

　この段階では厳密な意味での科学とはいえない。ニュース速報が出るようなイベントの最中にリアルタイム検索結果ストリームを見た人は、フォロワーが10人しかいないようなTwitterユーザーの無関係なツイートをたくさん目にするだろう。また、あるブログ投稿を流用したブログ投稿を、さらに流用したブログ投稿が多数表示されるはずだ。

　米Yahooの検索担当シニアバイスプレジデントShashi Seth氏は、次のように語る。「リアルタイムで入ってくる情報について、リアルタイムでない情報の場合と同じような関連性チェックとランキングを行うチャンスはない」

多額の資金投入

　リアルタイム検索ビジネスに携わる人は誰でも、大いに苦労しながら、リアルタイム世界の管理の一環として、多岐にわたる情報ソースを検討する。だが前述のように、結局話題になっているのはTwitterだ。

　Sullivan氏は「Twitterは、Googleに多額のコンテンツ対価を支払わせることに成功した数少ない会社の1つという意味で、驚くべき快挙だ」と言う。Googleは通常、Associated Pressなどとのいくつかの契約を除いて、コンテンツに対価を支払うことには消極的だが、Twitterの「firehose」にアクセスする権利を得るために、数百万ドルと言われる金額を進んで差し出した。Business Weekは2009年12月、TwitterがGoogleおよびMicrosoftとの契約から2500万ドルとも言われる対価（正確な金額は確認されていない）を得たと報じた。

　なぜそれほどの資金を投じるのだろうか。それはひとえに、従来型の検索エンジンがウェブをクロールする方法でTwitterをクロールするのがあまりにも難しいからだ。現時点で主要検索エンジン3社すべてが、Twitterにコンテンツを直接プッシュさせる契約に署名しており、この3社（そしてTwitter）が時間、労力、資金を節約できるようにしている。