「Googleの検索結果に物申す」:オープンソースの検索エンジン

 新しいウェブ検索システムを開発するプロジェクトが登場した。このプロジェクトではGoogleやYahoo、MSNなどの検索結果をテストし、商業的なバイアスのかかっていない便利な情報を探し出すためのプロセスを改善することを目的にしている。

 Nutchと呼ばれるこのプロジェクトは、オンライン文書を見つけるためのオープンソースソフトウェアを開発している。しかし、ユーザーの検索キーワードとの適合度の計算方法を非公開にしている大手検索プロバイダとは異なり、計算方法を公開し、各検索結果が出た理由を説明するリンクも提供する、と主任設計者Doug Cuttingは述べている。

 「既存の検索エンジンはいずれも、最も適合する文書の決定方法を非公開にしている」と話すCuttingは、米ExciteやGrand Central、米Palo Alto Research Centerなどで研究開発に携わった経歴を持つ。「インターネットユーザーにとって、検索は基本的な必需品で、価値あるツールだ。それなのにこっそりと制御されているのは良くない状況だと思われる。人々は検索エンジンを信頼するために、その仕組みを知る権利を持っている」(Cutting)

 Nutch自体も、開発者からのサポートや検索業界の最大手の米Overture Servicesからの資金提供を受け、約1年の間ひそかに運営されてきた。

 Overtureの研究者2人が昨年、学術研究のためのオープンソース検索システムへの資金提供に関心を示し、Cuttingにコンタクトを取ってきた。Overtureは広告型検索サービス会社で、現在Yahooが同社の買収作業に入っている。以前から新しい検索エンジンの開発に取り掛かりたくてたまらなかったCuttingは、これをきっかけに、創立メンバー開発者3名を集め、Lotus設立者でElectronic Freedom Foundation共同設立者のMitch Kaporや、技術書出版社O'Reilly & Associatesの設立者兼社長Tim O'Reillyなどで役員会を構成した。

 NutchはOvertureとのつながりはあるものの、実験用技術を提供して検索の性能向上を図る、非営利プロジェクトだ。学術研究者や開発者は、ソフトウェアをダウンロードして利用することにより、一から開発する手間を省ける、とCuttingは話している。たとえば外国の政府なら、広告付きのプロプライエタリな技術のライセンスを受けるのではなく、国民のための非営利検索サイトを開発するのにNutchを利用できる、とCuttingは言う。また企業は、Nutch技術を利用して営利事業を立ち上げることも可能だ。

 Nutchはすでに、ダウンロード可能な研究用ソフトウェアを公開している。これは他の開発者によるテスト用にはよいが、平均的なウェブサーファー向けとしてはおそらく使いにくいだろう。Nutchは10月までに公のサイトを設け、Googleなどの検索結果と比較できるようにユーザーが1億個の文書ファイルを検索できるようにすることを目標としている。

 たとえばユーザーは、数学的な計算過程が明らかなNutchの検索結果と、適合度計算方法を公開していないGoogleの検索結果を比較できる。Nutchはウェブサーファーからのトラフィックをサポートするためのハードウェア資金集めに精力的に取り組んでいるが、現状のシステムには、ユーザーからのトラフィック殺到を処理できるだけの余裕はない。

 Overtureの広報Jennifer Stephensによると、同社は昨年、Gary Flakeが運営する独自の研究グループを設立してまもなく、学術研究と同社自身の技能習熟のためNutchに出資したという。しかしOvertureが米AltaVistaや、ノルウェイのFast Search & Transferのウェブ検索技術を買収してからは、これらの技術がOvertureのウェブ検索技術とテストの中心となり、Nutchは同社の実験台としては代替的なものとなった、とStephensは説明している。

 Nutchは、よくあるウェブ名と同様意味のない単語で、Cuttingの2歳になる息子Henryに由来している。昨年Cuttingがドメイン名を探していたとき、彼はHenryが「lunch」を「nutch」と発音するのを耳にしたのだ。

 Nutchの検索エンジンはJavaで記述されており、Luceneソフトウェアライブラリをベースにしている。Luceneは、開発者が電子メールなどの技術に検索機能を追加する際に使われるライブラリで、Cuttingが一部開発に携わったもの。Nutchは、相互検索ライブラリおよびインデックス作成ツールなどにLucene技術を利用している。だがNutchは、ウェブ全体を巡回してインデックス化するよう設計されている。

 Cuttingはとくに、広告の多い検索プロバイダの影響を懸念している。検索エンジンに商品やサービスへのリンクが掲載されると、非商用データの検索に影響が及ぶ可能性がある。またCuttingは、米国の検索会社が米国外でも支配的であることにも懸念を示している。

 「世界が所有する、オープンソースの検索エンジンがあればよいと思う」(Cutting)

この記事は海外CNET Networks発のニュースをCNET Japanが日本向けに編集したものです。

CNET Japanの記事を毎朝メールでまとめ読み(無料)

-PR-企画広告

企画広告一覧

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]