> >

グーグル、テキストを介さない音声翻訳システム「Translatotron」を発表

Corinne Reichert （CNET News）翻訳校正：編集部2019年05月17日 12時26分

　Googleは「実験的な新しいシステム」である「Translatotron」を発表した。このシステムは、テキストを全く介さずに直接音声から音声に翻訳するという。

Translatotronは、音声をテキストとして翻訳するという通常の行程を飛ばし、音声から音声に翻訳する
提供：James Martin/CNET

　「Translatotronは、ある言語の音声を別の言語の音声に直接翻訳できる初めてのエンドツーエンドモデルだ」と、米国時間5月15日付けの Google AIのブログ投稿に記されている。

　音声翻訳システムには通常、音声をテキストに起こす「自動音声認識」、文字起こしされたテキストを対象言語に翻訳する「機械翻訳」、翻訳されたテキストから対象言語の音声を生成する「テキスト音声合成（TTS）」の3段階があるとGoogleは述べている。

　これらの行程を段階的に実行しているのが「Google翻訳」などのサービスだが、Translatotronはテキストを介さない単一のモデルを利用するとGoogleは述べている。

提供：Google

　「Translatotronと呼ばれるこのシステムは、1つのタスクが異なる段階に分かれるのを避ける」と、Google AIのソフトウェアエンジニアであるYe Jia氏とRon Weiss氏はブログ投稿で述べている。これにより翻訳速度が速くなり、複合的な間違いが減るという。

　このシステムは、入力データとして元となるテキストのスペクトログラム（音声を視覚的に表したもの）を使用し、対象言語に翻訳されたコンテンツのスペクトログラムを生成する。また、出力したスペクトログラムをタイムドメインの波形に変換するニューラルボコーダーや、翻訳された合成音声で話者の声の特徴を維持するためのスピーカーエンコーダーも使用される。

この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。

CNET Japanの記事を毎朝メールでまとめ読み（無料）