Googleは、「iOS」と「Android」向け「Google」アプリの音響モデルに複数の改善を施し、その詳細を明らかにした。ユーザーが最寄りのレストランへの行き方を尋ねたり、ウェブ検索のための質問をしたりする際の音声をより効率的に認識できるようにするものだ。
今回の改善により、Googleアプリは騒がしい環境でも言われていることをより正確に認識できるようになったのに加え、リアルタイムでの音声解析に必要な計算リソースが削減されていると、Googleの音声チームは述べている。
同チームによると、Googleが音響モデルに採用している種類の「リカレントニューラルネットワーク(RNN)」は、ディープニューラルネットワークよりも情報の記憶に優れ、「時間依存性」をモデル化することができるという。例えば、「museum」と言う単語は、/m j u z i @ m/という音声表記に翻訳される。
「先ほどの例でユーザーが/u/(「ウ」の音)と発音する際、その調音器官はその前の/j/(ヤ行の音)、さらに前の/m/という音から続いてきている。RNNはそれをとらえることができる」とチームは説明する。
また、計算を削減するため、Googleは音声をより大きな塊で取り込むようにモデルを訓練し、さらに訓練データに人工のノイズを加えることで、騒がしい場所での音声認識を向上させた。
音声チームによると、このような改善を実現するのに、モデルを調整して、向上した予測と遅延時間との最適なバランスを見出す必要があったという。
「しかし難しかったのは、これをいかにしてリアルタイムで実現するかだった。多くの反復を重ねた結果、従来モデルに比べて入力音声を大きな塊で取り込み、なおかつ実際の計算回数は少ないストリーミングの単一指向性モデルの訓練に成功した」
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」