Microsoftは、自社の音声プラットフォームをもう少し決定的なものにしたいと考えている。
Microsoftの音声技術は長年にわたって、人が何を話しているのかを理解する能力を高め、同時に、音声による検索やコマンドを携帯電話以外のデバイスでも行えるようにしてきた。しかし、同じくらい重要な要素が欠けていた。それは、言葉の意味やその背後にある文脈をより深く理解することだ。
そのためにMicrosoftは、「会話理解(Conversational Understanding:CU)」と呼ばれる技術の構築に取り組んでいる。CUは、音声、辞書、文法構造、機械学習を組み合わせて、ユーザーが話していることをよりよく理解し、システムが意味や文脈をすべて考慮した答えを出せるようにしようというものだ。
Microsoftの製品やサービスで、これを実現したものはまだ登場していない。しかし、Microsoftの音声グループのゼネラルマネージャーZig Serafin氏は、米CNETに対し、会話理解という構想は形になりつつあると語った。
「これまでにわれわれが行ってきたことはすべて、人が話していることを理解するための取り組みだ。人間にたとえるなら、とてもよい耳を持つようなものだ。相手がサンフランシスコのマーケット通りをあちこち動き回っている時でも、相手の話していることが聞こえるか、相手が求める返事ができるくらいよく聞き取れたか、ということだ」(Serafin氏)
次のステップは、聞き取った言葉で、ウェブを検索したり、電話をかけたり、アプリケーションを起動したりといったことよりも、さらに進んだ作業をすることだったとSerafin氏は言う。
「そうした取り組みの先にあり、今まさに着手しようとしているのが、このシステムの脳にあたる要素だ。それが意味を理解することだ」とSerafin氏。これを実現するには、Microsoftの音声技術のさまざまな部分を連携させることが必要になる。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」