MSNサーチが検索市場にもたらすもの - (page 2)

インターナルサーチは流行するか?

 歴史を振り返ってみると、インターナルサーチのツールは、Microsoftが初めて見出した市場ではなく、今までもいくつかの製品が発表されてきている。しかし、どれもPCのヘビーユーザ以外には浸透することができないでいた。

 こうしたツールが一般ユーザに浸透しなかったのは、ツールの設定や索引作成の面倒さ、ユーザビリティといった問題もあったが、そもそも検索対象となるデータの蓄積を一般ユーザが持っていなかったことも大きな原因だろう。インターネットブーメランなどは発表が99年であり、早すぎた。

 だが、その後のパソコンとインターネットの普及により、今、ビジネスマンのPCには十分な量の情報が蓄積されているはずだ。少なくとも1年分のメールは持っているはずだ。「ググる」(Googleで検索する)という言葉も雑誌に登場しているくらい、一般ユーザが能動的に検索を行う習慣も定着しつつある。無償で使いやすい検索ツールが登場するならば、今度は爆発的普及の可能性が十分にあるかもしれない。

 何よりMicrosoftはOSやブラウザ、メールソフトにおいて独占的とも言えるトップシェアを誇っている。こうしたプラットフォームと組み合わさることで、インターナルサーチはもうひとつの巨大検索市場を生み出す可能性を秘めている。Chin氏が語った国内40%シェアというのも、無茶とは思えない数字に見えてくる。

 ビジネスモデルは従来通りの広告による収益を予定しているという。先行した有償の検索ツールが流行らなかったことを考えると、これは妥当なやり方に思える。

 もちろん、この発表を受けて、GoogleやYahooらもインターナル検索の追撃をする可能性がある。インターナル、パーソナライズドを新しいトピックに、検索市場のシェア争いが激化していくことが予想される。

インデックス、アルゴリズム、インタフェースの次世代技術たち

 Microsoftのインターナルサーチの発表は検索エンジンの技術革新をひとつ次へ進める大きな変化の予兆だと私は考えている。以下では、検索の未来について考察する。

 検索技術は大別して以下の3つの要素を持っていると私は考えている。

  1. インデックス作成の技術(Web巡回、自然言語処理、データベース化)
  2. 検索アルゴリズムの技術(PageRank、tf/idfなど結果順位決定の仕組み)
  3. インターフェースの技術(検索フォーム、ツールバー、可視化工夫など)

 これら3つの技術のひとつが突出しているだけではだめで、各要素がうまく組み合わさったとき、ユーザにとって利便性の高い検索サービスが実現されるものである。Googleの場合、世界最大規模のインデックス(30億ページ以上のWeb)、PageRankという特徴的で強力なアルゴリズム、キーワード検索に特化したシンプルなインタフェースの3つが絶妙にブレンドされて、高いサービスレベルを実現しているといえる。

 Microsoftのインターナルサーチは、ローカルファイルのインデックス作成が特徴的だが、他の要素については、強い特徴を打ち出せているわけではない。ローカルファイルのインデックス作成自体はそれほど高度な技術を要するものではない。OSやブラウザのプラットフォームの独占的シェアが、追撃してくる勢力に対して一定の防衛効果を見込めるが、これだけでは万全とは言えないだろう。

 むしろ、今回のMicrosoftの発表は、競合のインターナルサーチへの参入を誘い、検索市場の更なる競争激化を予感させる。では、今後、各技術においてどのような革新がありえるのだろうか。

インデックスの技術:P2P共有、マルチメディア、インビジブルWeb、セマンティックWeb

 検索サービスの真の勝者を決める鍵はインデックスの技術である。ネットワークの隅から隅までを誰よりも高速に巡回し1%でも多くデータベース化する。世界最大にして最新のインデックスを保有すること、これは勝利の必要条件であるといえよう。現状、世界最大規模はGoogleである。この記事執筆時点で42億のページを検索可能にしている。

 ではYahooやMSNは?というと規模は公開されていない。共にGoogleに匹敵する規模のインデックスを誇るとアナウンスされているようだが、利用者としての体感では、Googleの方が、見つかるページ数が多いと感じている。大抵の検索語でマッチする数の比較からもそれは裏づけられる。調べられないページがあることはそれだけで便利さを大きく損なう。

 無論、これは私の推測であるが、こうした推測に対して実数を公開して論破することは簡単なことだ。また遥かに上回っているのであれば、マーケティングにその事実を使わない手はない。よって、現状、Googleが、ある程度他を引き離した大きな規模のインデックスを保有していると結論してもよいはずだ。

 だが、インターナルサーチにおいてはMicrosoftが真の勝者となりうるかもしれない。彼らはMS Windowsのファイルシステムと、MS Office文書の技術仕様を100%知りえる唯一の立場にいる。Webではともかく、デスクトップ世界では、最も多くのファイルを取り込む最も高速なインデックス技術は、Microsoftにしか作れないのだ。

 MicrosoftはP2PグループウエアのGrooveも買収しているが、この技術はMicrosoftの検索戦略において、まだ前面に出されていない。これも強力な切り札となるだろう。Grooveは共有フォルダにファイルを置いておけば、自然にユーザ同士のフォルダ間で同期が行われる。明示的にこれを交換しましょうとして、相手を見つけて交換するWinnyやWinMXなどのP2Pアプリケーションと違い、一般ユーザにもわかりやすい強力なアプリケーションである。会社や学校、自宅やインターネットカフェ、どこにいても同じフォルダが使えるということでもある。

 無論、インターナル以外でも技術競争は進んでいる。マルチメディア、インビジブルWeb、セマンティックWebがキーワードとなるだろう。

 マルチメディアの解析技術によって、テレビやラジオという大きなマスメディアコンテンツもインデックス対象となりえる。現在は番組表の検索までだが、例えば米国のTVEyesは、全米主要テレビ局の放送をロボットがモニターしている。音声認識によって音声をテキスト化し検索可能にする。登録キーワードを番組でアナウンサーが発話するとメールで教えてくれたり、録画を開始させたりという応用ができるわけだ。

 2つ目のインビジブルWebは、今はまだ検索できないコンテンツの検索だ。Amazon.comが開始している書籍本文の検索A9や、Yahooのオークション検索などが代表例である。こちらでは、技術だけでなく、利用ライセンスも競争戦略上の切り札となる。

 3つめのセマンティックWebは、Webから意味を取り出す技術である。BlogやニュースサイトのメタデータであるRSSやATOMなどの信頼できるデータを利用すれば、意味の検索が可能になる。例えば、Webショップの価格データやBlogの評価記事から、最も安くiPodを購入できる店を探したり、人気のカラーは何かを調べることができるようになる。

 こうしたセマンティックWebの行き着く先はオントロジー検索である。米国ではCycorpという人工知能の老舗研究企業が取り組んでいる事例がある。例えば人という概念の下に、職業エージェントという概念があって、その下に消防士などという概念があるとする。こうした概念データベースを利用することで、コンピュータは「消防士」とは、ある職業プロフェッショナルで、かつ人間であることを理解できる。同様に、消防士が水をまけば火事の火が消えることも理解したりするのだ。こうしたオントロジーのインデックスがあれば、言葉ではなく意味で検索できるようになる。

検索アルゴリズムの技術:パーソナライズド検索、文脈の自動学習、ヒューリスティクス

 検索結果の表示順位の決定は、何らかの数学的アルゴリズムで計算される。だが、万人にとって完璧なアルゴリズムなど今後も見つからないはずである。特にローカルにある、個人のメールや文書は個別性が強いので、なおさら万人のための究極理論はありえない。むしろ、アルゴリズムの重みをユーザが変更できる機能が歓迎されそうだ。

 例えば、Googleの実験ラボが公開しているPersonalizedサービスでは、予め個人の関心分野を登録しておく。検索フォームには、パーソナライズ度を変更するスライドバーがついており、パーソナライズ度がゼロなら通常のGoogle検索結果が出る。パーソナライズ度を強くすればするほど、関心テーマに関連するページが上位に出てくる。

 私は、Business/IndustriesやComputersやScienceジャンルの幾つかのテーマにチェックを入れた。エンジニア仕様である。パーソナライズ度ゼロの状態で「news」というキーワードで検索すると、CNNやBBC、FOXといった一般ニュースサイトが上位に出てくる。ここでパーソナライズ度を最大にすると、今度は技術系ニュースサイトのSlashdot、CNET、Internet.comといった顔ぶれが上位陣になる。

 類似した事例では7000以上のニュースソースから、数万テーマのポータルサイトを自動構築しているTopix.netもある。こちらでは、ユーザが居住しているZIPコードを指定すると地域情報を集約したポータルを表示してくれる。

 無論、こうした手動での設定と同時に、ユーザの利用履歴から、好みを学習する人工知能によるパーソナライズも有力な技術となる。MSN Newsbotはその一例だ。自動学習が働くならば、PCは使えば使うほど、賢くなっていく。使えば使うほど重たく不安定になっていくPCの現状とは対極のイメージになっていくだろう。

 こうした技術が向かう先は、ユーザの検索ニーズを察知して、必要なときに、必要な場所に答えを表示するサービスである。柔軟に文脈に対応するには、アルゴリズムは最初にあるのではなく、ユーザにとって最適なアルゴリズムが作られるのだ。

 またヒューリスティック(人間の経験知)によるアプローチも、もうひとつの考え方である。例えば、「長年のご愛顧」というキーワードでGoogleで検索してみよう。数多くの閉鎖されたWebサービスの残骸を発見できる。これ以外のキーワードでは同種のページを見つけるのは一苦労だ。

 1つ1つは小さな検索Tipsに思えるが、これらが何千、何万と集まったとき、検索は飛躍的に便利になる可能性がある。現状の検索インデックスには、検索で表示されないページが無数にある。こうしたヒューリスティックを強化していくことで、現行の検索エンジンも遥かに有益な知識データベースに進化する可能性もあるのだ。

CNET Japanの記事を毎朝メールでまとめ読み(無料)

-PR-企画特集

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]