いまやインターネットの世界で、検索エンジンなしの生活は考えられない。私たちは気になった単語や知りたいキーワードを検索ボックスに打ち込み、あらゆることを調べる。テレビCMでは「続きはウェブで検索!」という言葉までが登場するようになった。分からないことがあったときに「グーグル先生に訊いてみよう」というのは、インターネット業界の合い言葉になっている。
そんな中で、もし自分の運営しているサイトがある日突然、検索結果に表示されなくなったらどうだろう。訪問者数はおそらく激減し、サイトの広告や物販の売上は大きく落ち込んでしまうだろう。
ある日突然、グーグルの検索結果から自分のサイトが表示されなくなること――これは「グーグル八分」と呼ばれている。かつて村の掟を破った者が葬式と火事以外の交流を断たれた「村八分」になぞらえたもので、グーグルのポリシーに違反したサイトがグーグルの検索インデックスから削除され、グーグルで検索してもそのサイトが表示されない状態を指す。
このグーグル八分が現状どの程度行われているのかを知るためのシステムを開発しようというプロジェクトが始まった。「グーグル八分発見システムの開発」と題されたこのプロジェクトは、独立行政法人情報処理推進機構(IPA)の未踏ソフトウェア創造事業として採択され、IPAから開発資金が提供される。このシステムを開発するのは、「悪徳商法?マニアックス」のサイト管理人で、実際にグーグル八分を受けたことのある「beyond」こと吉本敏洋氏だ。
グーグル八分発見システムとはどのようなものなのか、そしてIPAがこのプロジェクトを採択した狙いはどういった点にあるのだろうか。吉本氏と、IPAの未踏ソフトウェア創造事業でプロジェクトマネージャー(PM)を務める筑波大学大学院システム情報工学研究科科長の田中二郎氏に聞いた。
吉本氏によると、グーグル八分発見システムとはグーグルとほかの検索エンジンの検索結果を比較して、グーグルの検索結果だけに登場しないサイトを割り出すシステムだという。具体的には各検索エンジンの検索結果を数値化して偏差値を算出し、異常値がないかを探し出す。異常な数値が出た場合、そこにはその検索結果にだけ何らかの人為的な操作が行われている可能性が高い、という発想だ。
検索エンジン同士を比べるだけでなく、時期による比較も試みる。たとえば2007年8月8日と2008年8月8日の結果を見たときに、偏差値が大きく異なっていれば、その間に何か人為的な操作が行われた可能性がある。
ただ、あらゆる検索結果を分析するには、膨大な計算処理が必要となる。そこで吉本氏はインターネットを利用した分散処理を思いつく。地球外の知的生命体を探し出す「SETI@home」と同じように、分析用のクライアントソフトを配布し、多くの人のパソコンの余っている処理能力を生かそうというものだ。
クライアントソフトはそのPCの検索結果を解析し、偏差値を算出する機能を持つ。検索結果をそのまま利用するとプライバシーの侵害になりかねないことから、偏差値のみを中央サーバに送信してデータ処理する、といったことを考えているようだ。
「実験的に300サンプルほど使って解析したところ、ある程度の傾向が見えた」といい、1万件のクライアントソフトを配布することを目標としている。
実は、IPAが評価したのはこのシステムの構造だ。PMの田中氏は、「グーグル八分をされているサイトを見つけるというだけだったら採択しなかった」と話す。
「クライアントソフトを配り、多くのパソコンのリソースを使うというシステムの枠組みが面白いと思った」(田中氏)
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス
地味ながら負荷の高い議事録作成作業に衝撃
使って納得「自動議事録作成マシン」の実力
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」