ウェブ2.0関連の新しい企業は皆、次のGoogleになりたいと思っている。もちろん言うは易く行うは難しで、新興企業は星の数ほどある。新興企業の事業計画を聞くたびに少額ずつ話にのっていれば、やがてはEric Schmidtと肩を並べる高額納税者になれるかもしれない。
しかし、Googleもどこかから現れてYahooを打ち負かしたのだ。また他の新興企業が現れてGoogleに取って代わらないとも言えない。8月17日にサービスを開始したばかりの招待制検索サービスSpockがそうなるかもしれない。
Spockは、サービス開始時点でデータベースに1億人の情報を持っており、同社は他の一般にアクセスできるサイトから、すぐにより多くの情報を蓄積していく計画だ。人物に関する検索サイトにはWinkやZoomInfo.com、LinkedInなどがあり、それぞれ人気を得ているが、さまざまな検索分野の勢力を打ち倒すには至っていない。Spockはメタタグ検索機能を持ち、信頼できるユーザーにのみWikipedia的なタグ付けの特権を与えるという、他のものとは若干異なる方針を持っている。
CNET News.comは、同社の最高経営責任者(CEO)であり共同創立者のひとりであるJaideep Singh氏にインタビューを行った。ところで、Singh氏は、同社の名前は宇宙船エンタープライズ号のバルカン人科学主任とは無関係であると言っている。社名は「single point of contact and knowledge」の頭文字を取ったものだ。
1億人を少し超えたくらいです。
それには2つのことが関係しています。1つは人間であり、もう1つはわれわれがどれだけの文書を処理しているかです。なぜなら、1人の人物に関連する文書がいくつも存在しうるからです。われわれは実際にウェブ全体をクロールしてインデックスを作成しており、文書を取り出し、それらを人間の関連事項として体系づけています。
特定のキーワードについて調べるのであれば、Googleは素晴らしいものです。問題は、Googleで人物について検索すると、人物に関する大量の文書が抽出されてしまうことです。例えばDavid Sternと入力します。これはNBAのコミッショナーの名前なんですが、ふつうにある名前です。この名前を検索すると、最初の数ページ分はNBAのDavid Stern氏に関する情報ばかりが出ます。バーや会議で会った別のDavid Stern氏の情報は見つけることはできないでしょう。
これは、ごく簡単な問題出現の例です。われわれは、もっといろいろな技術を使って他でもないそのDavid Stern氏を特定し、人物を中心に文書や情報、画像や関係性などの情報を組織化します。
はるかに難しいことです。実際、これは全く異なる技術スタックです。共通なのはクローリングだけです。
クローリングが終わった後は、方向性の異なる処理をします。単なるメタデータの抽出ではなく、その文書が誰についてのものであるかを特定しようとします。われわれは、その文書で最も重要な情報を特定したいと考えています。例えばCharlieに関する文書があってそこに「JaideepはReneeとテニスをするのが好きだ」と書いてあったとしましょう。これは、Charlieがテニスをするという意味でも、Charlieがテニスを好きだという意味でもありません。このような形で、言語を理解し、その文書が何についてのものであるかを理解するためには、自然言語処理やその他の技術が必要になります。
もちろんです。多くの特許を持っています。われわれの会社には7人のPh.Dクラスの人材がいて、この処理に関するアルゴリズムに取り組んでいます。外部にも多くの協力者がおり、その人たちにはこのような問題の解決を手伝ってくれる、Stanford大学や業界の著名なアドバイザーが多く含まれています。この問題を解くだけでなく、何十億というウェブドキュメントを処理するという規模の問題も解決しなくてはなりません。これは最大規模の問題であり、大きな挑戦です。
その通りです。
一歩下がって考えてみましょう。ユーザーがこのサイトのサービスに感じる魅力は、ある意味でGoogle的だというだけのことではないでしょう。名前や何らかのキーワードを入力して検索を行うと―例えば「Give me all the astronauts(すべての宇宙飛行士を表示しろ)」でもいいですが―非常に整理された結果と、その人物の画像が得られます。その人物を説明する、最も適切な用語や言葉が表示され、それと同時にその人物に関する情報のウェブ上での所在と人間関係が表示されます。
いい点を指摘してくれました。それについて少しお話ししましょう。われわれがやっていることは、ウェブにインデックス付けを行うという意味ではGoogleと同じです。公開されている文書を参照してコンテンツを整理します。また、ユーザーは自分に関する情報がインターネット上に多く存在することに気づくでしょう。ある場所でブログをしていればそれはウェブ上に載っています。MySpaceのプロフィール情報もウェブ上にあります。ユーザーの多くは、Spockで、この有用な情報を「Spockはウェブ上で自分に関するどんな情報を見つけただろうか」という形で得ることができます。これを知ることが出来ること自体が有用です。
それはやっていません。一般に公開されているウェブだけを対象にしており、ファイアウォールの内部には立ち入らないようにしています。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス