情報過多の世の中をより暮らしやすく--「検索オリンピック」の現在

酒井哲也2007年06月01日 14時54分

　今や、「検索」という言葉はテレビCMや雑誌、電車内広告に氾濫し、消費者の間に完全に浸透している。特に、ウェブ検索の入り口はPCから携帯電話やテレビにも広がり、検索対象のほうもConsumer Generated Media（CGM）を中心に急速に拡大している。

　こうした流れの中で、1999年から開催されている「NTCIR（エンティサイル）」というワークショップをご存じだろうか。NTCIRは情報検索技術の国際ワークショップで、情報アクセス（膨大な情報に埋もれた有用な情報をユーザーに提供するための技術の総称で、情報検索を包含する）の研究に従事する世界中の研究者が一斉に共通の研究課題に取り組み、競争と協調を通して技術進歩を促進する「情報検索のオリンピック」である。

　NTCIRに参加するのは、情報過多の世の中をより暮らしやすくするための基礎技術を手がけている企業や大学の研究者たちだ。約1年半に1度のペースで開催されており、直近では5月15日から18日の間、第6回目となる会議が東京の国立情報学研究所にて行われた。

　主な検索対象はアジア言語のテキストだが、今回は欧米も含め12カ国から参加があった。正式種目としては、

言語横断検索：検索対象の言語がユーザーの言語と異なる場合の検索
質問応答：文書のリストを出力するのではなく、ユーザーの質問に対する回答文字列をずばり出力する技術
特許検索および分類
テキストからの意見文抽出、分析

――が設けられた。各種目の結果はNTCIRのサイトに公開されている。下のスライドにあるように、最近のNTCIRの参加チーム数は100に届きそうな勢いである。

第1〜6回NTCIRの種目別参加チーム数の推移

　これまで開催された種目はOPINON（意見分析）、CLQA（言語横断質問応答）、QA（質問応答）、MuST（動向要約）、Summarization（要約）、Term Extraction（用語抽出）、Web Retrieval（ウェブページ検索）、Patent Retrieval（特許検索）、Non-Japanese IR（日本語以外の検索）、CLIR（言語横断検索）、Japanese IR（日本語検索）。なおNTCIRでは最後の3つが言語横断検索の種目に含まれる。

　つい最近、Googleが自動翻訳による言語横断検索サービスを公開するというニュースが流れたが、言語横断検索の研究は10年以上前から盛んに行われており、NTCIRにおいても第1回NTCIRから毎年メイン種目として取り組まれてきた。今年は世界から22チーム――日本企業では東芝／ニューズウォッチ、ヤフー、ジャストシステム、大学では米国のUC Berkeley、City University of New York、スイスのNeuchatel大学、その他シンガポールのInstitute for Infocomm Researchなどが参加している。

　他の種目には言語横断検索ほど多くの参加はないが、例えば質問応答は、ユーザーに検索結果の文書全体を読ませる代わりに必要な情報だけ抜き出して提示するため、用途によっては文書検索より有用である。特許の資料調査や分類も、特許審査官や会社の知財部門に直接役立つ研究である。また、今回新設された意見分析は、ブログなどの玉石混淆（というより大半が石）のCGMから有用情報を抽出するために、おそらく数年以内に実社会で役立つであろう。一方、古典的な文書検索は、対話型質問応答や意見分析などの高度な種目の1要素技術という位置づけで研究が継続されるであろう。