その時点でGoogleは、検索結果ページの上位に表示させるものを判断するために、リアルタイムコンテンツソースの関連性の評価を開始する。ここでは3つのことが重要になる。1つめはコンテンツの質だ。つまり、コンテンツがスパムか本物かを区別する。2つめは、コンテンツの作者の信頼性という点だ。フォロワーの数だけでなくフォロワーの質まで評価するために、「PageRank」に似たアルゴリズムを使って判定する。3つめはセマンティック評価だ。これは、Googleの言語データを使用して、同じ文字が使われていても無関係のステータス更新を除外するものだ。例えば、「gm cars(General Motors製自動車)」と「gm foods(遺伝子組み換え食品)」を区別する。
この段階では厳密な意味での科学とはいえない。ニュース速報が出るようなイベントの最中にリアルタイム検索結果ストリームを見た人は、フォロワーが10人しかいないようなTwitterユーザーの無関係なツイートをたくさん目にするだろう。また、あるブログ投稿を流用したブログ投稿を、さらに流用したブログ投稿が多数表示されるはずだ。
米Yahooの検索担当シニアバイスプレジデントShashi Seth氏は、次のように語る。「リアルタイムで入ってくる情報について、リアルタイムでない情報の場合と同じような関連性チェックとランキングを行うチャンスはない」
リアルタイム検索ビジネスに携わる人は誰でも、大いに苦労しながら、リアルタイム世界の管理の一環として、多岐にわたる情報ソースを検討する。だが前述のように、結局話題になっているのはTwitterだ。
Sullivan氏は「Twitterは、Googleに多額のコンテンツ対価を支払わせることに成功した数少ない会社の1つという意味で、驚くべき快挙だ」と言う。Googleは通常、Associated Pressなどとのいくつかの契約を除いて、コンテンツに対価を支払うことには消極的だが、Twitterの「firehose」にアクセスする権利を得るために、数百万ドルと言われる金額を進んで差し出した。Business Weekは2009年12月、TwitterがGoogleおよびMicrosoftとの契約から2500万ドルとも言われる対価(正確な金額は確認されていない)を得たと報じた。
なぜそれほどの資金を投じるのだろうか。それはひとえに、従来型の検索エンジンがウェブをクロールする方法でTwitterをクロールするのがあまりにも難しいからだ。現時点で主要検索エンジン3社すべてが、Twitterにコンテンツを直接プッシュさせる契約に署名しており、この3社(そしてTwitter)が時間、労力、資金を節約できるようにしている。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
企業や自治体、教育機関で再び注目を集める
身近なメタバース活用を実現する
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス
パナソニックのV2H蓄電システムで創る
エコなのに快適な未来の住宅環境
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」