マイクロソフトは4月7日、スマートフォンアプリ「Microsoft Translator」や「Skype 翻訳(Skype Translator)」などで翻訳機能を提供している「Microsoft Translator」において、リアルタイム会話翻訳の対応言語に日本語を追加したと発表した。
Microsoft Translatorでは、これまで使用していた統計的機械翻訳に代わり、ニューラルネットワークベースの翻訳エンジンを使用。これにより、リアルタイムでの音声翻訳を実現したほか、翻訳自体の精度も大幅に向上しているという。機械翻訳では、人が翻訳した学習データを活用。統計的な単語の並び順によるマッチングは可能だったものの、長い文章などでは全体の関係を処理できなかったという。
リアルタイム会話翻訳は、Microsoft Translatorアプリの「ライブ機能」として実装される。スマートフォンやブラウザ上でも利用でき、1対1の会話だけでなくグループ間の会話にも対応する。今回の日本語対応により、翻訳可能な言語はアラビア語、中国語(マンダリン)、英語、フランス語、ドイツ語、イタリア語、ポルトガル語、スペイン語、ロシア語を含めた10言語になる。
今回、新たに「Microsoft Translator PowerPointアドイン」を提供。PowerPointのプレゼンテーションにリアルタイムで字幕を付けることができるほか、「Outlook」や「Microsoft Edge」用のアドインも提供予定としており、電子メールやウェブサイトの翻訳にも利用可能。また、「Bing 翻訳」やAIアシスタント「Cortana」の翻訳機能などにも適用されるという。
そのほか、Skype翻訳でもリアルタイム会話翻訳が利用できるようになり、ビデオチャットなどでもスムーズな意思疎通が可能。マイクロソフトでは、同社のクラウドプラットフォーム「Microsoft Azure」用の翻訳API「Microsoft Translator Speech API」を提供し、リアルタイム会話翻訳を自社アプリやサービスに統合することができる。
音声翻訳は、マイクロソフトの独自技術「TrueText」に加え、音声認識用、機械翻訳用と異なる2つのAIを組み合わせることで実現。音声は、自然な対話を扱えるように設計された音声認識ニューラルネットワークシステムに送られ、「ディスフルエンシ(disfluencies)」と呼ばれる、日本語の「えーと」や英語の"um"といった、つなぎ言葉を含んだテキストが生成される。
TrueTextは、ディスフルエンシを削除。完全な文章に必要な文頭・特定名詞の大文字化や、句読点の追加を実施。翻訳ステージでの適切な処理を可能にするという。処理したデータは2番目のAIに送られ、TrueTextが整えた文章の文脈を利用して、流ちょうで人間らしく聞こえる翻訳が施されるという。最後にテキスト読み上げ機能が音声に変換することで、リアルタイムでの音声翻訳を実現している。
マイクロソフトでは、今回の新機能により、訪日観光客や海外を旅行する日本のユーザーにとって、言語の壁を取り除く総合的なソリューションになると説明している。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」