成長を続けるデータ管理市場
WebFountainのルーツはスタンフォード大学、そして同大学が生んだもう1つの画期的な研究成果Googleに遡る。WebFountainの原点はテキストマイニングに関する学術論文だ。この論文はIBMのAlmaden Research Centerとスタンフォード大学の研究者が共同で執筆したもので、「ハブとオーソリティ」の概念をテーマとしている。
「ハブとオーソリティ」理論では、ウェブで情報を見つける最良の方法が、最大規模で一番人気のあるサイトを見ることだとしている。一般に、「ハブ」はウェブポータルや専門家のコミュニティを、「オーソリティ」は重要度の高いサイトを指す。どのサイトが「オーソリティ」かは、サイトにリンクしているウェブページの数や影響力から判断される。オーソリティの概念はGoogle検索の中核アルゴリズムPageRankにも反映されている。
この理論は、CleverというIBMの初期のウェブデータマイニングプロジェクトにも取り入れられた。しかし、IBMの研究者は徐々にこの理論から遠ざかっていく。ハブとオーソリティの理論が軽視しているページ、つまり掲示板やBlog、ニュースグループといった構造化されていないページの方が、興味深いデータを引き出すにあたって役立つと考えるようになったからだ。この発見からWebFountainが生まれた。
「我々が着目しているのは、レベルが低く、どうしようもないページだ」とGruhlは語る。
アナリストの予測によれば、今後企業はウェブ上の「非構造化データ」の分析に関心を持つようになるという。カリフォルニア大学バークレー校は静的ウェブのデータ量を167テラバイトと概算しているが、ウェブの奥深くにあるデータまで合わせるとその量は6万6800〜9万1850テラバイトにのぼる。
IDCの調査によると、非構造化データ管理の市場規模は、今年は64億6000万ドルだが、2006年には97億2000万ドルにふくらむという。
WebFountainの実態はいかに
IBMのAlmaden Research Centerにあるサーバセンターを見れば、WebFountainの処理能力に対する不安はたちどころに消えるだろう。
IBMはインド、ニューヨーク、北京など、世界各地に8つの研究施設を持ち、総勢200名の研究者を抱えている。このうち、WebFountainプロジェクトの中心となっているのが米国のAlmaden Research Centerだ。
入り口でセキュリティチェックを受け、車をえんえんと走らせると、シリコンバレーを見下ろすなだらかな丘と草地の間に、1960年代に建てられた低層オフィスビルがひっそりとたたずんでいるのが見える。
絶え間なく続くファンの音が、廊下の先に、何が巨大なものがあることを示している。
メインクラスタはIntel Xeon 2.4GHzプロセッサを2基搭載した32ビットの8サーバラックだ。1秒間で10GBのデータをディスクに書き込むことができる。格納可能な圧縮データの量は160テラバイトにのぼる。
このメインクラスタの横には2つの64ビット・デュアルプロセッサ・クラスタがあり、補助的な作業をこなしている。一方は週に約2億5000万のウェブページを収集し、残る一方はクエリを処理している。
現在は3クラスタ合計で768のプロセッサが稼働しているが、その数は急速に増えている。
今年からクラスタとストレージシステムはブレードサーバに置き換えられ、省スペース化がはかられた。この結果、データマイニング用に896、ストレージ用に256のプロセッサを新たに加えることが可能になった。合計1152のプロセッサが新たに導入されれば、1日に処理できるウェブページの数は80億にはねあがる。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」