logo

ビル・ゲイツ氏が語る音声認識の未来とナチュラルインターフェース - (page 2)

文:Ina Fried 翻訳校正:吉井美有2007年11月01日 08時04分
  • このエントリーをはてなブックマークに追加

―それは例えば動画検索にも大きな変化を引き起こすでしょうね。現在、動画を検索するときには、基本的にそのビデオが埋め込まれたインターネット上の説明のページのキーワードを検索したりしています。音声認識を使い始め、動画で出てきた語句を検索できるようになったら、非常に強力なものになるでしょう。

 まさにそのとおりで、非常に有用なものでしょう。Microsoft Researchがそれについて素晴らしいデモをしています。動画の放送という観点から見れば、もちろんテキストによる注釈の必要性があります。もしこの機能があれば、聴覚障害を持つ人や何らかの字幕機能が必要な人のために音声テキスト変換を行うことができます。もしこれができれば活用できるような動画は沢山あります。動画を一気に消化する場合や、ビジネスの打ち合わせの動画のように、音声認識ソフトウェアがあればナビゲートしやすくなるものなどです。

―現在の段階で一般にはあまり考えられていない音声の利用分野としてはどんな例がありますか。

 わたしにとっては、音声はナチュラルインターフェースの広大な世界の一部です。ナチュラルインターフェースでは、どこにでもスクリーンという概念があります。デスクにも、テーブルにも、壁にもスクリーンがあり、ホワイトボードはなくなって、Surfaceのように触れることで操作ができます。ペンを使ってどこにでも書き込むことができます。記事を取り出して、そこにメモを書き込み、友人に送ることもできます。

 音声認識はこの一部になります。ナチュラルインターフェースのすべての側面が注目を集めつつありますが、これらは現在のデジタル革命の中で最も過小評価されているものでもあります。Surfaceをタッチしてどんなことができるのかを見たり、iPhoneに触れたりすると、人々は息を飲みます。あまりにも自然だからです。

 音声認識が正しい形で使われると、例えばあなたが車の中にいて、誰かに電話をしたいとしましょう、音声出力やテキストの音声変換などは劇的に改善されています。

―いくつかの自然言語インターフェースの話が出ました。確かに、Microsoftが示したSurfaceやAppleのiPhoneなどで、マルチタッチは人々の想像力をかき立てているようです。しかし、音声認識を行う場合、音声は主要なコンピューターインターフェースの主流になるのは少し先のように思えます。

 それはフェアな評価でしょう。音声認識はさらに高度な技術です。ただし、世の中の多くの人、何百万人という人は、何らかの理由でキーボードを魅力的だと考えていません。反復過多損傷な人もいれば、手で何か他の作業をやらなければならない仕事環境の場合もあります。そういうソフトウェアを学び、ソフトウェアに適応して、そこでトレーニングを受けた人は、それを大変好んでいて、他の人たちがそれを使わないのを信じられません。

 残りのわれわれにとっては、キーボードは非常に役に立つものであり、キーボードを電話にさえ付けようとしています。わたしは、電話での音声検索が、物事を前に進めるアプリケーションの1つだと考えています。これは、なぜわざわざ綴りを予想して入力したりしなくてはならないのかということです。電話を持っていて、通話ボタンがあるのですから、これは取り組んでみていい分野でしょう。

―Microsoftはかなり有効な音声認識エンジンをVistaに搭載しています。しかし、あまり話題にはなりません。Vistaの機能の一部があまり注目を集めないのを不思議に思いますか。

 何億人ものユーザーが買うような商品では、何百万人ものユーザーが好んで使う機能が、全ユーザーに占める比率が低いためにあまり目立たない機能だと言われる場合もあります。Xerox時代から現在まで偉大な成果を上げている当社の優秀な研究者の1人であるButler Lampson氏は、Vistaの音声関係の機能の改善のすばらしさについて最近わたしにメールをくれましたし、われわれは次のバージョンのWindowsにも情熱をもって取り組んでいます。この音声関係の機能については、もっと改善していく予定です。

―開発途上国についてはどうでしょうか。自然言語による入力は、特にこれまでコンピュータをまったく使ったことがない人の役に立つおもしろいアプリケーションがあり得ると思うのですが。

 それについては、あまり踏み込み過ぎないようにします。というのは、彼らはダイアログに慣れていないだけでなく、多くの地域では労働力が安価なため、電話で人間に直接頼んだり、直接話したりした方が安い場合があるからです。しかし、これはもちろん異なる言語体系では役に立つはずです。特に日本語や中国語など、限られたアルファベット空間で表現するには不自然な規模の文字セットを持つ言語では、これは面白い問題でしょう。そういう地域では、手書きや音声入力の人気が高まっています。

 最近のデモで、タイピストと音声認識が競争し、音声認識が大差で勝つというものがありました。これらのマーケットから出てくる需要を開拓していくことによって、多くのことが達成できるでしょう。

―フルタイムの仕事から離れた際に取り組む予定のいくつかのプロジェクトについて、これまでかなりのことを話していますね。この分野の自然言語入力と音声関係のことは、パートタイムになっても取り組んで行くのですか。

 そうです。幅広く、ナチュラルインターフェース関係のこと全体について扱っていきます。大きなスクリーン、タッチ、手書き、音声、これらのことは、クラウドコンピューティングと同様に、われわれがソフトウェアについて考える上での次の大きな変化になりますし、今後基礎的なものになるでしょう。そして、クラウドコンピューティング関係のことについては、Ray Ozzieがわたしよりも進んでおり、すべてのことに自ら取り組んでいます。ナチュラルインターフェース関係の一部については、彼とSteveはエネルギーとビジョンを保つことをわたしに求めるのではないかと思っています。その一部はスクリーンやタブレットの読み取りになるでしょうが、ナチュラルインターフェースの分野全体が任されるのではないかと思っています。

―他に担当すると思われるものはありますか。

 わかりませんね。検索は今非常に面白い分野です。これが選ばれるかもしれません。Officeソフトウェアの今後の方向性についていくつか案があり、その一部については非常に興味を持っています。ですから、これら3つが最も可能性が高いと思います。全部で3つか4つになるでしょうが、これは彼らが判断することです。

CNET Japanの記事を毎朝メールでまとめ読み(無料)

-PR-企画特集

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]