> >

2019年にはTOEIC 800点相当の機械翻訳へ--「みらい翻訳」が見据える可能性と未来 - (page 2)

佐野正弘2015年07月17日 11時30分

特集

Target 2020--テクノロジーがもたらすパラダイムシフトの記事一覧はこちら

みらい翻訳が目指す翻訳は「ルール型」と「統計型」のハイブリッド化

　それを解決するための方法として、みらい翻訳では対訳文（コーパス）に基づいて統計的なモデルを学習し、翻訳する「統計型翻訳」も用いているとのこと。こちらは特に自然な会話を翻訳する時に効果的な場合が多いそうで、ルール型と統計型のハイブリッドで、長文など翻訳が難しい文章への対応を進めているそうだ。

　統計型翻訳の精度を高めるにはコーパスの質と量が大きく影響することから、みらい翻訳では2つの方法を用いてコーパスの充実を図っている。1つは、コーパスの交換所や、企業などから直接コーパスを購入する方法。そしてもう1つは、ウェブサイトの文章をクローリングしたり、NICTなど関連する企業・団体から入手したりする方法だ。特に金融や製薬など、業界専門のコーパスを入手するには前者、日常会話などのコーパスは後者の方法で入手することが多いようだ。

　現在、みらい翻訳が特に力を入れているのは、B2B向けのサービスになるという。業界専用のコーパスや、企業の社内文書から得たコーパスを用いてチューニングすることで、精度の高い機械翻訳を提供できることが大きな理由で、提供されるエンジンも、基本的にその企業や業界に特化した専用のものとなっている。

　では、幅広い場面で汎用的に利用できる機械翻訳エンジンの提供は、難しいのだろうか。栄藤氏によると、機械翻訳に汎用性を持たせる上で大きなハードルとなっているのは、文脈の解釈が難しいことだという。

　企業向けの機械翻訳エンジンが、その企業に合わせたコーパスでチューニングして精度を高めているのと同様、日常の会話も、日常会話向けのコーパスを用いてチューニングをしている。しかし、日常会話から急に専門的な会話になった場合、どういった場面で、どういった文脈で話が変化しているのかを判断するのが難しく、チューニング対応ができないのだそうだ。

　だがいずれはそうした問題の解決も必要だと栄藤氏は考えており、その解決策として栄藤氏は、前後の文脈を読み、変化に応じてコーパスのチューニングを変えることを考えているそうだ。

　もっとも、機械翻訳の精度を高めるには、翻訳システムの改善だけでは足りないとも、栄藤氏は話している。会話を翻訳する上では音声認識部分の改善や連携の強化もしていかなければならず、多くの人が利用することを想定した、大規模なスケールのシステムも用意する必要がある。翻訳以外の部分の性能向上も、求められているようだ。

現時点でTOEIC 600点相当、2019年には800点相当へ

　では、みらい翻訳は今後、どこまで翻訳性能を向上させることを考えているのだろうか。栄藤氏によると、現在はTOEICでいうと600点相当のレベルとのことだが、これを2016年に700点相当にまで向上させることを考えているという。さらに2019年には800点相当の実現を目指しており、「800点の実現には文脈判断が必要となるため難しい部分もあるが、必ず解決できると思っている」と栄藤氏は話している。

　また対応する言語に関しては、現在のところ日本語のほか、英語、中国語、韓国語の3つとなっているが、将来的にはNICTのデータを利活用し、インドネシアやベトナムなど、東南アジアの国々の言語にも対応させたいと考えだ。

　さらにその先となる2020年には、コミュニケーションツールに機械翻訳が当然のように入っている時代が来るのではないかと、栄藤氏は予測している。実際、マイクロソフトはSkypeで会話をリアルタイムに翻訳する「Skype Translator」のプレビュー版を提供しているが、そうしたサービスが当たり前になると見る。また栄藤氏は、現在の機械翻訳は全てクラウドで処理していることから、スマートフォン以外のデバイスでも手軽に機械翻訳が利用できるようになるのではないかと語った。

　「今はまだ完璧な形ではない機械翻訳も、5年後、10年後には当たり前のものになる」と栄藤氏は説明する。2020年まであと5年、機械翻訳によって実際にどこまで言語の壁が取り払われるのだろうか。