音声認識は極めてコンピューティング負荷の高い問題で、数秒のごく単純な音声のコマンドやリクエストをデコードするにも多くのリソースが必要だ。Cohen氏は幸運なことに、世界最大級のコンピューティングリソースを有する企業で働く機会に恵まれた。
また誰もが知るように、Googleは人々が毎日検索エンジンに入力する検索キーワードから、また「Google Books」プロジェクトの一環としてデジタル化した1000万冊超の書籍から、人間の言語表現パターンに関する大量のデータを蓄積してきた。
Cohen氏によると、この組み合わせにより、Googleは音声認識クエリを処理する際に膨大な量のデータセットを操作することができ、その点が「Googleが大きな優位性を持つ理由の1つだ」という。大量の新しいデータを処理して古いデータと照合できるこの能力のおかげで、Googleはより正確な結果をより短時間で出すことができると同氏は考えている。
Googleの取り組みの結果が最もはっきりとした形で現れたのはモバイルOS「Android」だ。Androidユーザーは検索トップページの小さなマイクボタンをクリックすると、声でウェブ検索を実行したり特定のアプリケーションを起動したりできる。8月に行われたイベントで、Googleのモバイルプロダクトマネージャーは、Androidユーザーはおよそ4回に1回はマイクを使って検索キーワードを入力すると述べている。
それだけなくGoogleは、YouTubeユーザーが動画に自動的に字幕を付けられる技術もリリースしている。また同社の「Google Voice」アプリケーションでは、Google Voiceアカウントに記録されたボイスメールをテキストに書き起こす機能があり、時にすばらしい成果を発揮している。さらにGoogleは英国のThe Timesに対し、ユーザーが電話機に話しかけるとその文が翻訳された結果が音声で返されるという「翻訳電話」の開発に取り組んでいると述べた。
しかし、Googleや業界の他社が本当の意味で信頼できる音声認識技術を実現した、と言う人はほとんどいないだろう。何が障壁となっているのだろうか。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス
ユーザー利便性向上と物流課題の解決へ
楽天市場ができる貢献のあり方
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」