最終更新時刻:2008年9月5日(金) 23時13分

マーケティングチャンネル

IPAが採択した「グーグル八分発見システム」の深意

永井美智子(編集部)

2007/08/31 18:14  

 いまやインターネットの世界で、検索エンジンなしの生活は考えられない。私たちは気になった単語や知りたいキーワードを検索ボックスに打ち込み、あらゆることを調べる。テレビCMでは「続きはウェブで検索!」という言葉までが登場するようになった。分からないことがあったときに「グーグル先生に訊いてみよう」というのは、インターネット業界の合い言葉になっている。

 そんな中で、もし自分の運営しているサイトがある日突然、検索結果に表示されなくなったらどうだろう。訪問者数はおそらく激減し、サイトの広告や物販の売上は大きく落ち込んでしまうだろう。

 ある日突然、グーグルの検索結果から自分のサイトが表示されなくなること――これは「グーグル八分」と呼ばれている。かつて村の掟を破った者が葬式と火事以外の交流を断たれた「村八分」になぞらえたもので、グーグルのポリシーに違反したサイトがグーグルの検索インデックスから削除され、グーグルで検索してもそのサイトが表示されない状態を指す。

 このグーグル八分が現状どの程度行われているのかを知るためのシステムを開発しようというプロジェクトが始まった。「グーグル八分発見システムの開発」と題されたこのプロジェクトは、独立行政法人情報処理推進機構(IPA)の未踏ソフトウェア創造事業として採択され、IPAから開発資金が提供される。このシステムを開発するのは、「悪徳商法?マニアックス」のサイト管理人で、実際にグーグル八分を受けたことのある「beyond」こと吉本敏洋氏だ。

 グーグル八分発見システムとはどのようなものなのか、そしてIPAがこのプロジェクトを採択した狙いはどういった点にあるのだろうか。吉本氏と、IPAの未踏ソフトウェア創造事業でプロジェクトマネージャー(PM)を務める筑波大学大学院システム情報工学研究科科長の田中二郎氏に聞いた。

グーグル八分発見システムとは何?

 吉本氏によると、グーグル八分発見システムとはグーグルとほかの検索エンジンの検索結果を比較して、グーグルの検索結果だけに登場しないサイトを割り出すシステムだという。具体的には各検索エンジンの検索結果を数値化して偏差値を算出し、異常値がないかを探し出す。異常な数値が出た場合、そこにはその検索結果にだけ何らかの人為的な操作が行われている可能性が高い、という発想だ。

 検索エンジン同士を比べるだけでなく、時期による比較も試みる。たとえば2007年8月8日と2008年8月8日の結果を見たときに、偏差値が大きく異なっていれば、その間に何か人為的な操作が行われた可能性がある。

 ただ、あらゆる検索結果を分析するには、膨大な計算処理が必要となる。そこで吉本氏はインターネットを利用した分散処理を思いつく。地球外の知的生命体を探し出す「SETI@home」と同じように、分析用のクライアントソフトを配布し、多くの人のパソコンの余っている処理能力を生かそうというものだ。

 クライアントソフトはそのPCの検索結果を解析し、偏差値を算出する機能を持つ。検索結果をそのまま利用するとプライバシーの侵害になりかねないことから、偏差値のみを中央サーバに送信してデータ処理する、といったことを考えているようだ。

 「実験的に300サンプルほど使って解析したところ、ある程度の傾向が見えた」といい、1万件のクライアントソフトを配布することを目標としている。

IPAが採択したわけ

 実は、IPAが評価したのはこのシステムの構造だ。PMの田中氏は、「グーグル八分をされているサイトを見つけるというだけだったら採択しなかった」と話す。

 「クライアントソフトを配り、多くのパソコンのリソースを使うというシステムの枠組みが面白いと思った」(田中氏)

この記事を読んだ人におすすめ

マーケティングチャンネル コラム

■モバイルSEOのはじめ方

モバイルSEOに有用なデータの収集方法
PCのSEOでは「site:」や「link:」といった特別構文を用いて施策を進めるが、モバイルではうまくいかないのが実情だ。そこで、1つの指標として用いることができるのが、Google「ウェブマスターツール」と、「Yahoo!サイトエクスプローラー」だ。

■ネット時代の大容量データマイニング

サイト上のユーザー行動情報をデータマイニングに活用する
インターネットが普及することで、企業に蓄積されるデータに、サイト上でのユーザの行動情報(「▲▲を見ていた」「■■を買おうとした」)が加わった。こうしたデータの扱い方や可能性について、掘り下げてみる。

■世界の先端ネットマーケティングを斬る

アドネットワークは日本に定着するのか?
最近、媒体社のアドネットワーク事業への取り組みが目立ってきている。7月だけでも、MS、楽天、So-net、ライブドアなどが新規参入を発表した。果たして日本においてアドネットワーク事業は成功するのかを考えていく。

スポンサーインフォメーション

データ

企画特集

サーバ仮想化・グリーン化の利点を最大化!サーバ仮想化・グリーン化の利点を最大化!
多機能・高価値なNetAppストレージの秘密とは

■調査レポートダウンロード

Lucene のスコア計算
インターネットと英語

■調査発表

調査結果「薬の使用期限、7割は『把握していない』」
「携帯電話の未来〜進化の方向性と「オープン化」による生き残りをかけた争い〜」無料レポートを発表
第21回価格.comリサーチ 「ブルーレイレコーダー買った?買わない?」結果