「目標は、音声による入力と出力を完全に普及させることだ。音声による入出力が有用な場面では、必ず非常に高いパフォーマンスを得られるようにしたい」(Cohen氏)
Cohen氏は、2004年にGoogleに入社する前に音声技術の会社Nuance Communicationsを創業しており、この分野で26年の経験を持つ。Googleでの同氏の職務は、最先端の音声認識と音声合成の技術をGoogleのサービスに組み込むことで、まず2007年に「GOOG-411」を、2008年に音声検索を導入した。
Cohen氏は、現時点で主要な音声技術システムのほとんどが1つの基本的なアーキテクチャに収束したと話す。第1のステップでは、受信した音波を100分の1秒ごとのバッチで解析して、音の高低とその範囲の微妙な差異を識別し、それらの音声をデジタル値で表す。次のステップが難しい部分で、それらのバッチを集めて、英語の単語を構成する膨大な数の音の組み合わせと照合して一致するものを探す(プロセスは他の言語でも同じだが、音の組み合わせの数は言語によって異なる)。
「基本的には大規模な統計モデルだ」とCohen氏は言う。Googleの手法や他の音声認識モデルでは、音声の音響的な特性を解析して「音素」(単語を構成する音の基本単位。例えば「Google」の「ooo」の部分)を特定する。さらに、これらの音素によって個々の単語がどのように形成されているかや、文法によってこれらの単語の構造からどのように文が作られているかも特定する。
基本的なアプローチという点では、Googleも音声技術の実装に携わる他社と何ら異なることをしているわけではない。Nuance Communicationsの「Dragon NaturallySpeaking」は、その分野に関心のある人々から多くの支持を得ている。MicrosoftとAppleは、膨大な時間と資金を投入し、何年もかけて自社のデスクトップOSに導入する音声認識技術の研究を行ってきた。また、Vlingoなどの新興企業がそのような技術をモバイルコンピュータに組み込んでいる。
しかし当然ながら、Cohen氏はGoogleが優位に立っている点がいくつかあると考えている。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」
企業や自治体、教育機関で再び注目を集める
身近なメタバース活用を実現する
OMO戦略や小売DXの実現へ
顧客満足度を高めるデータ活用5つの打ち手
パナソニックのV2H蓄電システムで創る
エコなのに快適な未来の住宅環境