独自の検索機能実現を目指す米マイクロソフト

  • このエントリーをはてなブックマークに追加

 米Microsoftは、次期Windowsオペレーティングシステムで検索機能の拡大を図ろうとしているが、いまこの取り組みに役立つ可能性のある研究を進めている。

 同社は、個々のハードドライブに対してGoogleライクな検索を行ったり、データを整理しやすくするためにクエリ結果をさまざまな形に分類してくれるなど、豊富な機能を提供する各種検索技術を実験している。

 いろいろな意味で、この研究は2006年に予定されるWindowsのメジャーアップデート、Longhornに搭載するストレージおよびデータベース機能のユーザーインタフェースを見つけ出すことが目的のようだ。

 同社によると、たとえば数週間前にまとめられた実験的なアプリケーション、Implicit Queryは、フォアグラウンドで動作中のアプリケーションに関連するリンク、音楽ファイル、電子メールやその他のデータを集めるものだという。

 Microsoft Researchのアダプティブシステム/インタラクティブグループの所属するシニアリサーチャー、Susan Dumaisは、「Implicit Queryでは、作業中のあらゆるテキストを解析し、重要な語句を抜き出し、そしてこれらの語句に自動的にクエリを走らせている。ユーザーが検索していないものを集めるというのが、このプログラムの機能だ」と語った。

 Microsoftではさらに、これらのツールをオペレーティングシステムやアプリケーションに直接統合することも検討している。

 「自分がしている作業をすべて止めるようなことはしたくない。検索結果だけ分かればいいのだ。人は多くの時間をファイルの整理に費やしている」(Dumais)

 互換性のない多くのファイルをリンクする検索システムの構築は、Microsoftが何年もの間なかなか達成できなかったゴールであり、同社会長のBill Gatesが特に力を入れるプロジェクトでもある。

 MicrosoftはLonghornで、たいていは互換性のない別々のソフトウェアサイロ(貯蔵庫)に保存された書類、電子メールのメッセージ、ウェブページをリンクできるソフトウェアを投入する意向だ。Longhornには、Microsoft SQL Serverから派生したWinFSという基盤技術が搭載されるが、これはアプリケーションを使って1つに統合したデータベースからデータを取り出せるようにするものだ。

 現在、データの保存方法はアプリケーションの種類によって決まっている。データベースは一般的には銀行口座の情報など数値の処理が中心のアプリケーションで利用され、これに対してファイルシステムは一般的に構造化されていないデータタイプを持つドキュメント中心のアプリケーションで利用されている。問題は、異なるストレージシステムから情報を取り出す作業がどうしても難しいという点だ。

 WinFSは、非構造化ドキュメントと、一般的な保存/検索メカニズムを持つリレーショナルデータベースに格納されたデータとの橋渡しを目指している。Microsoftがこれに成功すれば、ゆくゆくはデータの相互運用性改善と、表示/検索機能の大幅な向上につながる可能性が高い。

 またWinFSで、Microsoftは自社の検索ソフトウェアを最も使いやすいものにすることで、Googleなどの商用検索エンジンを足下から切り崩せる可能性もある。何しろ、スペルチェッカでさえ、かつては独立したアプリケーションだったのだ。

 こうしたアイデアの多くは、まだ発案されたばかりのものだというDumaisは、Microsoft Researchが開発した検索ツールが市販製品に搭載されるかどうか、そしてそれがいつになるのかについてはコメントを控えた。

 それでも、これらの研究の一部については既にかなり大規模なテストが進められている。Microsoftでは、1000人以上の社内ユーザーが既にハードディスク検索を行う研究プロジェクトの「Stuff I've Seen」を利用しており、Dumaisのグループでは検索機能の実際の使い方を割り出すためにこれらのベータユーザーに対してインタビューを行っている。

検索機能の洗練

 Microsoftの考える検索は、どこでも使えるが但し特に効率的なものではない。かなりシンプルなクエリで20ページ分以上の結果が表示されるが、この結果は一般的に個々の嗜好やニーズの背景をあまり反映したものでもない。

 「検索はいろいろな意味で力仕事だ。2人が1つのクエリを入力すると、同じ結果が返されるが、それでは役に立たない。知性のある人間が同じ話題に対して同じことを言うなど考えられない」(Dumais)

 ドットコム・ブームの初期にはパーソナライゼーションという言葉が流行していたが、パーソナライズされたコンテンツを提供する取り組みは、その多くが失敗に終わった。しかし、ソフトウェアデベロッパーは、ベイズ理論をはじめ、ソフトウェアに知性を与える確率論の各種テクニックにますます精通するようになった。

 これらのモデルの基盤にある計算は複雑だが、最も重要な概念はかなりシンプルだ。ソフトウェアは、個人のウェブユーザーの癖、関心事、知識、職歴や旅行歴、作業プロジェクトといった各種データをモニターしており、個人にとって重要なものと無関係なものの予想を試みるモデルも組み立てている。

この記事は海外CNET Networks発のニュースをCNET Japanが日本向けに編集したものです。

  • このエントリーをはてなブックマークに追加