「これにより、われわれは計算を劇的に削減し、認識システムを大幅に高速化した。また、訓練データに人工のノイズと反響を加え、認識システムを周囲の騒音により強くした。モデルが文章を学習する過程をこちらの動画で見ることができる」と音声チームは述べている。
これらの改善によって、Googleは実際の音声トラフィックに使える、より高速で正確な音響モデルを手にした。
「しかし、もう1つクリアすべき問題があった。このモデルでは音素の予測に約300ミリ秒の遅延があったのだ。モデルはこのとき、音声信号のより先を見越すことで予測の質を向上させられることを学習したばかりだった」
「賢くはあるが、ユーザーにとっては待ち時間が増えることを意味し、容認できるものではなかった。この問題は、音素予測の出力を実際の発話のタイミングに大幅に近づけるようモデルを訓練することで解決した」と音声チームは説明している。
この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」
OMO戦略や小売DXの実現へ
顧客満足度を高めるデータ活用5つの打ち手
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス
パナソニックのV2H蓄電システムで創る
エコなのに快適な未来の住宅環境