Cohen氏によると、現時点での最も基本的な問題は単純な周りのノイズだという。モバイルユーザーが屋外で使用する場合、風の音、周りの人の会話、道路の騒音などの干渉を受けて、認識システムの第1ステップで記録される音声が変質するおそれがある。Cohen氏は、マイクの性能を上げれば多少緩和できる可能性があるが、システム自体をそのような干渉に対処できるよう改善する必要があるとしている。
その他に主な問題として挙げられるのは、人が話す内容を予測して、予測内容から正確にテキストを生成する処理の複雑さだ。アクセントや方言だけの問題ではない(癖のあるブルックリンのアクセントで話すCohen氏は、かつて音声技術の教授から、正確に話す人など存在しないという注意を受けたことを語った)。ニックネーム、スラング、急いで話された文や不完全な文があるだけでも、高度なアルゴリズムに混乱が生じる可能性があるという。
Googleは、人々が音声検索を使用するときにも、Googleで通常の検索を行うときと同じように、「restaurants in Palo Alto」(パロアルトにあるレストラン)といったようなキーワードや語句の形で話すことに気付いた。そのため、ある音の集合が検索の文脈において何を意味するかをより容易に予測できる。発話から生成したテキストと検索クエリデータベースの相互参照が可能になるからだ。一方ボイスメールについては、特にプライバシー上の理由から同様のデータベースを保持していないため、予測はまったく不可能だとCohen氏は言う。
このように、課題は多く残っているものの、Googleの内部にも外部にも、今や音声技術がごく少数の熱心なユーザーだけが欲しがる機能というよりも、多くの一般の人々が望むものになりつつあるという認識がある。人々が馴染むまでには多少時間がかかるかもしれないが、一時代前のために設計されたコンピュータ入力手段、つまりキーボードとマウスを使うことをやめて、タッチスクリーンと音声コマンドに切り替える人々はすでに現れ始めている。
旧式の入力手段を「抹殺する」ということではなく、別の手段も選べるようにするということだ。「人々が声で入力したい気分のときはそうすることができるし、手で入力したいときはそうすることができると思えるようにしたい」(Cohen氏)
この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」
「程よく明るい」照明がオフィスにもたらす
業務生産性の向上への意外な効果