> >

MSの音声認識技術--言葉の「意味」の理解に向けた新たな取り組み

文：Josh Lowensohn（CNET News）翻訳校正：川村インターナショナル2010年12月20日 07時30分

　Microsoftは、自社の音声プラットフォームをもう少し決定的なものにしたいと考えている。

　Microsoftの音声技術は長年にわたって、人が何を話しているのかを理解する能力を高め、同時に、音声による検索やコマンドを携帯電話以外のデバイスでも行えるようにしてきた。しかし、同じくらい重要な要素が欠けていた。それは、言葉の意味やその背後にある文脈をより深く理解することだ。

Windows Phone 7でのTellme音声検索
提供：Josh Lowensohn/CNET

　そのためにMicrosoftは、「会話理解（Conversational Understanding：CU）」と呼ばれる技術の構築に取り組んでいる。CUは、音声、辞書、文法構造、機械学習を組み合わせて、ユーザーが話していることをよりよく理解し、システムが意味や文脈をすべて考慮した答えを出せるようにしようというものだ。

　Microsoftの製品やサービスで、これを実現したものはまだ登場していない。しかし、Microsoftの音声グループのゼネラルマネージャーZig Serafin氏は、米CNETに対し、会話理解という構想は形になりつつあると語った。

　「これまでにわれわれが行ってきたことはすべて、人が話していることを理解するための取り組みだ。人間にたとえるなら、とてもよい耳を持つようなものだ。相手がサンフランシスコのマーケット通りをあちこち動き回っている時でも、相手の話していることが聞こえるか、相手が求める返事ができるくらいよく聞き取れたか、ということだ」（Serafin氏）

　次のステップは、聞き取った言葉で、ウェブを検索したり、電話をかけたり、アプリケーションを起動したりといったことよりも、さらに進んだ作業をすることだったとSerafin氏は言う。

　「そうした取り組みの先にあり、今まさに着手しようとしているのが、このシステムの脳にあたる要素だ。それが意味を理解することだ」とSerafin氏。これを実現するには、Microsoftの音声技術のさまざまな部分を連携させることが必要になる。