グーグル、テキストを介さない音声翻訳システム「Translatotron」を発表

Corinne Reichert (CNET News) 翻訳校正: 編集部2019年05月17日 12時26分

 Googleは「実験的な新しいシステム」である「Translatotron」を発表した。このシステムは、テキストを全く介さずに直接音声から音声に翻訳するという。

James Martin/CNET
Translatotronは、音声をテキストとして翻訳するという通常の行程を飛ばし、音声から音声に翻訳する
提供:James Martin/CNET

 「Translatotronは、ある言語の音声を別の言語の音声に直接翻訳できる初めてのエンドツーエンドモデルだ」と、米国時間5月15日付けの Google AIのブログ投稿に記されている。

 音声翻訳システムには通常、音声をテキストに起こす「自動音声認識」、文字起こしされたテキストを対象言語に翻訳する「機械翻訳」、翻訳されたテキストから対象言語の音声を生成する「テキスト音声合成(TTS)」の3段階があるとGoogleは述べている。

 これらの行程を段階的に実行しているのが「Google翻訳」などのサービスだが、Translatotronはテキストを介さない単一のモデルを利用するとGoogleは述べている。

Google
提供:Google

 「Translatotronと呼ばれるこのシステムは、1つのタスクが異なる段階に分かれるのを避ける」と、Google AIのソフトウェアエンジニアであるYe Jia氏とRon Weiss氏はブログ投稿で述べている。これにより翻訳速度が速くなり、複合的な間違いが減るという。

 このシステムは、入力データとして元となるテキストのスペクトログラム(音声を視覚的に表したもの)を使用し、対象言語に翻訳されたコンテンツのスペクトログラムを生成する。また、出力したスペクトログラムをタイムドメインの波形に変換するニューラルボコーダーや、翻訳された合成音声で話者の声の特徴を維持するためのスピーカーエンコーダーも使用される。

この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。

CNET Japanの記事を毎朝メールでまとめ読み(無料)

-PR-企画特集

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]