カリフォルニア州マウンテンビュー発--GoogleのMike Cohen氏は、コンピュータを声で操作しようとする誰もが、ひどい音声翻訳に笑ったり不満のため息をついたりせずに済むようになるまで満足しないだろう。
音声技術分野の第一人者であるCohen氏は、音声技術を可能な限り多くの製品に導入しつつ科学として進歩させるというGoogleの取り組みの責任者を務めている。同氏は米CNETとの先日のインタビューで、音声技術の分野でGoogleが目指すものについて語り、「Googleの使命は世界の情報を整理することであり、世界の情報の多くは話し言葉であることがわかっている」と述べた。
Googleは、コンピューティングの世界はモバイルデバイスやブラウザベースのアプリケーションにシフトしつつあるという同社の展望に沿った形で、音声認識技術を生み出そうとしている。つまり、負荷の高い処理はデータセンターで実行し、簡単に操作できるソフトウェアを、インターネットを経由してハードウェア上の制約があるモバイルデバイス上で実行できるようにするという考えだ。
コンピュータによる音声認識は、何十年もの間、実現は5年から10年先だと考えられてきたように思える。事実、エレクトロニクス業界とコンピュータ業界は、音声で操作できるコンピュータという目標を100年近く前から追い続けている。1911年に「Radio Rex」という単純な木製の犬のおもちゃが発表されたときからだ。この犬は、飼い主が「Rex!」と呼ぶと(少なくとも何回かに1回は)犬小屋から飛び出すことでそれに応えて、子どもも大人も魅了した(Cohen氏は現存する数少ないRadio Rexの1つを所有している)。
1920年代以降、非常に大きな進歩があったことは明らかだが、「2001年宇宙の旅」の「HAL」や、「ナイトライダー」に登場するコンピュータ車「KITT」のようなコンピュータを使用している人はまだほとんどいない。しかしCohen氏の考えでは、音声認識モデルがより洗練され、モバイルコンピューティングデバイスがより高度なハードウェアにパッケージングされ、パフォーマンスが格段に向上したことをユーザーが実感し始めるなか、意味不明のおかしなボイスメールについてのジョークは間もなく聞こえなくなっていくという。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス