Googleは「実験的な新しいシステム」である「Translatotron」を発表した。このシステムは、テキストを全く介さずに直接音声から音声に翻訳するという。
「Translatotronは、ある言語の音声を別の言語の音声に直接翻訳できる初めてのエンドツーエンドモデルだ」と、米国時間5月15日付けの Google AIのブログ投稿に記されている。
音声翻訳システムには通常、音声をテキストに起こす「自動音声認識」、文字起こしされたテキストを対象言語に翻訳する「機械翻訳」、翻訳されたテキストから対象言語の音声を生成する「テキスト音声合成(TTS)」の3段階があるとGoogleは述べている。
これらの行程を段階的に実行しているのが「Google翻訳」などのサービスだが、Translatotronはテキストを介さない単一のモデルを利用するとGoogleは述べている。
「Translatotronと呼ばれるこのシステムは、1つのタスクが異なる段階に分かれるのを避ける」と、Google AIのソフトウェアエンジニアであるYe Jia氏とRon Weiss氏はブログ投稿で述べている。これにより翻訳速度が速くなり、複合的な間違いが減るという。
このシステムは、入力データとして元となるテキストのスペクトログラム(音声を視覚的に表したもの)を使用し、対象言語に翻訳されたコンテンツのスペクトログラムを生成する。また、出力したスペクトログラムをタイムドメインの波形に変換するニューラルボコーダーや、翻訳された合成音声で話者の声の特徴を維持するためのスピーカーエンコーダーも使用される。
この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス