MSの音声認識技術--言葉の「意味」の理解に向けた新たな取り組み - (page 2)

文:Josh Lowensohn(CNET News) 翻訳校正:川村インターナショナル2010年12月20日 07時30分

 その基盤はいくつかの技術で構成されており、消費者向けの技術も企業向けの技術もある。「Tellme」や、「Bing 411」サービスとその「iPhone」アプリ、「Windows Phone 7」音声検索、そして「Sync」搭載の自動車などは、名前を聞いたことがあるかもしれない。最近では「Xbox 360」に、「Kinect」の一部として音声認識技術が搭載された。これはMicrosoftが初めて導入した常時動作するマイクロフォンシステムで、音声コマンドを常に聞き分けてくれるため、ボタンを押す必要がない。

 こうしたシステムのほとんどで中心になっているのが、ユーザーの言葉を理解して、それをクラウドに返すことだ。しかし場合によっては、コマンドがシンプルであれば、クラウドに問い合わせる必要がないこともある。例えば、「(曲のタイトル)を再生」や、「お母さんに電話」などのコマンドを言った場合には、ローカルで処理できる。しかし、そうした少数のコマンド以外の言葉については、答えを求めてMicrosoftに接続することになる。

 会話理解の背後にある考えは、大量のデータに接続することによって(サードパーティーのサイトであっても、個人のデータフィードであってもよい)、ユーザーのクエリに文脈を加えて、そのユーザーが何を言おうとしているのか理解し、音声技術全体を大きく一歩前進させることだ。そのために必要なのは検索だけではない。

 「確かに検索は、会話理解の応用(のため)の1つの手段だ。しかし、会話理解はもっと幅広いものだ」。MicrosoftでTellmeのマーケティングを担当するシニアディレクターIlya Bukshteyn氏はこのように語る。Tellmeは2007年にMicrosoftに買収された音声認識技術の企業で、後にMicrosoftの音声技術グループに組み込まれている。「検索の意図を理解することは、単にデータを見つけるだけでなく、ユーザーが作業を完了できるよう実際に手助けする上で重要になっていく」(Bukshteyn氏)

Xbox 360の音声認識は、Kinect内蔵マイクロホンを通じて行われており、このシステムの音声処理を用いて、ゲームやアプリケーションからのノイズを消している。 Xbox 360の音声認識は、Kinect内蔵マイクロホンを通じて行われており、このシステムの音声処理を用いて、ゲームやアプリケーションからのノイズを消している。
提供:Microsoft

CNET Japanの記事を毎朝メールでまとめ読み(無料)

-PR-企画特集

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]