> >

グーグルの音声認識技術--進歩の歴史と新たな挑戦 - (page 2)

文：Tom Krazit（CNET News）翻訳校正：川村インターナショナル2010年09月09日 07時30分

　「目標は、音声による入力と出力を完全に普及させることだ。音声による入出力が有用な場面では、必ず非常に高いパフォーマンスを得られるようにしたい」（Cohen氏）

音声の認識

　Cohen氏は、2004年にGoogleに入社する前に音声技術の会社Nuance Communicationsを創業しており、この分野で26年の経験を持つ。Googleでの同氏の職務は、最先端の音声認識と音声合成の技術をGoogleのサービスに組み込むことで、まず2007年に「GOOG-411」を、2008年に音声検索を導入した。

Googleの音声技術研究の責任者を務めるMike Cohen氏。余暇にはキックスクーターを楽しむ。
提供：Google

　Cohen氏は、現時点で主要な音声技術システムのほとんどが1つの基本的なアーキテクチャに収束したと話す。第1のステップでは、受信した音波を100分の1秒ごとのバッチで解析して、音の高低とその範囲の微妙な差異を識別し、それらの音声をデジタル値で表す。次のステップが難しい部分で、それらのバッチを集めて、英語の単語を構成する膨大な数の音の組み合わせと照合して一致するものを探す（プロセスは他の言語でも同じだが、音の組み合わせの数は言語によって異なる）。

　「基本的には大規模な統計モデルだ」とCohen氏は言う。Googleの手法や他の音声認識モデルでは、音声の音響的な特性を解析して「音素」（単語を構成する音の基本単位。例えば「Google」の「ooo」の部分）を特定する。さらに、これらの音素によって個々の単語がどのように形成されているかや、文法によってこれらの単語の構造からどのように文が作られているかも特定する。

　基本的なアプローチという点では、Googleも音声技術の実装に携わる他社と何ら異なることをしているわけではない。Nuance Communicationsの「Dragon NaturallySpeaking」は、その分野に関心のある人々から多くの支持を得ている。MicrosoftとAppleは、膨大な時間と資金を投入し、何年もかけて自社のデスクトップOSに導入する音声認識技術の研究を行ってきた。また、Vlingoなどの新興企業がそのような技術をモバイルコンピュータに組み込んでいる。

　しかし当然ながら、Cohen氏はGoogleが優位に立っている点がいくつかあると考えている。