Microsoftは、英語のルールやパターンを理解する新ソフトウェアツールによって、めちゃくちゃな機械翻訳を過去のものにしたいと考えている。
「English Writing Wizard(EWW)」と呼ばれる新ツールは、Microsoft Office 2003の中国語エンタープライズバージョンで利用できるようになった。このバージョンは、複数の言語グループをサポートするOfficeの汎中国語版パッケージだ。EWWは今後、他の非英語バージョンのOfficeにも採用される可能性が高い。
外国語のテキストを不器用に機械翻訳するBabelfishなど他のサービスとは違い、EWWは英語の実用的知識の代わりとなるようには意図されていないと、Microsoft Researchの北京オフィスに所属する研究者で、EWWプロジェクトの責任者でもあるMing Zhouは述べている。
MicrosoftがEWWのユーザーとして想定しているのは、かなりの数の英単語を知っているが、しばしば不可解で矛盾するように見える単語の並べ方をマスターするのに助けが必要な人々だという。
「このツールは、ユーザーが文脈に従って正しい単語を選択できるようにするものだ。たとえば『book』という単語の使い方ひとつとっても、それが名詞として使われているのか、それとも動詞なのかがわからないと、正しい意味はつかめない。だが、非英語圏のユーザーは、こうした単語の正しい使い分けを非常に難しいものと感じている」(Zhou)
EWWは英単語同士の関連を分析する。たとえばEWWは「book」という単語の周囲の単語を調べ、この単語が名詞か動詞かを判断するためのヒントを収集する。そして、その分析結果に基づき、代替となる言葉遣いを提示する。
EWWはかなり本格的な翻訳ツールに思えるものの、実は英語の文法自体は全く知らない。その代わり、EWWは10年分の「Wall Street Journal」紙を含む、さまざまなテキストソースを徹底的に分析し、それに基づいて単語の配列パターンと確率を把握している。
「われわれはデータ分析に重点を置くアプローチを採っている。全ての知識はデータから自動的に学習される。われわれはWall Street JournalやNew York Timesなどの情報源からの大量の記事を取り込み、そしてソフトウェアが単語の配列パターンを自動学習した」(Zhou)
Zhouは、このアプローチのおかげで、EWWを他の言語に拡張することは比較的簡単なはずだと述べ、次の候補として日本語を挙げた。
この記事は海外CNET Networks発のニュースをCNET Japanが日本向けに編集したものです。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」