Microsoftの研究者チームはRogetのお株を奪おうとしている。
Microsoft研究部門のプロジェクトWriting Assistanceでは、より優れた類語辞典機能の開発を目指して、1つの言語から別の言語への翻訳のために開発されたテクニックが活用されている。
類語辞典は数多くの類義語を探すのにはいいが、利用者はその中から適切な類義語を選択しなければならない。なぜなら類語辞典機能は、何について述べているかという文脈を把握するのが苦手だからだ。そこで機械翻訳の経験が役立つ。
数理言語学者であり、このプロジェクトを率いるMicrosoft研究者の1人でもあるChristopher Brockett氏は、「実際の翻訳テーブルを利用した。何をしたかというと、それらのテーブルを調べ、中国語の1つの単語が2つの異なる英単語にマッピングされていれば、それらの2つの単語は類義語である可能性があるとした」と述べている。
静的な類語辞典機能と比べて、このアプローチには主に2つの利点がある。まず、この新しいアプローチでは、1つの単語ではなく、句に対応できる。また、その句が使用されている文脈を利用することもできる。
MicrosoftではTechFestと呼ばれる社内向けのサイエンスフェアを毎年開催している。Brockett氏は今週TechFestでツールの試作品を発表するとしている。これは、Microsoftの研究所で進んでいる研究を、同社の実業務部門に見せる取り組みの一環として発表される多くのプロジェクトの中の1つだ。
それらのほとんどのプロジェクトと同じく、類語辞典への取り組みはまだ初期段階にある。
「われわれはアルゴリズムと、言語ペアに対する作業量をまだ検討しているところだ。品質を向上させなければならない。ユーザビリティに関して検討しなければならない課題がある」(Brockett氏)
やがてこのテクニックを使用して、文全体を効果的に翻訳できるようになることをBrockett氏は期待している。Microsoftは自社のウェブサイトにそのデモを上げているが、そのような扱いはこのテクノロジの可能性と現在の限界の両方を示すものだとBrockett氏は認識している。
だが、剽窃しようと考えている高校生は注意した方がいい。いつかこのテクノロジでWikipediaの記事全体を翻訳できるようになるかもしれないが、クラスメートも全員、同じように翻訳された記事を使うおそれがあるからだ。また、剽窃を検知するソフトウェアも機械翻訳技術とともに進化している。
類語辞典自体について言えば、このテクノロジは従来の類語辞典がすでに搭載されている「Microsoft Word」に適しているが、ほかの重要な分野、すなわち検索分野でもMicrosoftの役に立つかもしれない。
その理由は、検索エンジンは1つの形式しかない名称などの検索を得意とするが、複数の言い回しが可能な表現を見つけることは難しいからだ。
ウェブ全体で検索する場合には、それはさして問題にならない。例えば、「Who shot Abraham Lincoln(誰がAbraham Lincolnを撃ったのか)」「Who killed Abraham Lincoln(誰がAbraham Lincolnを殺したのか)」「Who assassinated Abraham Lincoln(誰がAbraham Lincolnを暗殺したのか)」をそれぞれ検索すると、どの検索でもJohn Wilkes Boothについて記されたページが結果として表示される。
しかし、企業のイントラネットなど、検索範囲が狭い場合は、そうはいかないかもしれない。
「単語が違えば見つけられないこともある」とBrockett氏は述べている。そのような場合、類似した句を使って自動検索すれば、結果が見つかる可能性が高まるかもしれない。
この記事は海外CNET Networks発のニュースをシーネットネットワークスジャパン編集部が日本向けに編集したものです。海外CNET Networksの記事へ
CNET Japanの記事を毎朝メールでまとめ読み(無料)
地味ながら負荷の高い議事録作成作業に衝撃
使って納得「自動議事録作成マシン」の実力
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス