その基盤はいくつかの技術で構成されており、消費者向けの技術も企業向けの技術もある。「Tellme」や、「Bing 411」サービスとその「iPhone」アプリ、「Windows Phone 7」音声検索、そして「Sync」搭載の自動車などは、名前を聞いたことがあるかもしれない。最近では「Xbox 360」に、「Kinect」の一部として音声認識技術が搭載された。これはMicrosoftが初めて導入した常時動作するマイクロフォンシステムで、音声コマンドを常に聞き分けてくれるため、ボタンを押す必要がない。
こうしたシステムのほとんどで中心になっているのが、ユーザーの言葉を理解して、それをクラウドに返すことだ。しかし場合によっては、コマンドがシンプルであれば、クラウドに問い合わせる必要がないこともある。例えば、「(曲のタイトル)を再生」や、「お母さんに電話」などのコマンドを言った場合には、ローカルで処理できる。しかし、そうした少数のコマンド以外の言葉については、答えを求めてMicrosoftに接続することになる。
会話理解の背後にある考えは、大量のデータに接続することによって(サードパーティーのサイトであっても、個人のデータフィードであってもよい)、ユーザーのクエリに文脈を加えて、そのユーザーが何を言おうとしているのか理解し、音声技術全体を大きく一歩前進させることだ。そのために必要なのは検索だけではない。
「確かに検索は、会話理解の応用(のため)の1つの手段だ。しかし、会話理解はもっと幅広いものだ」。MicrosoftでTellmeのマーケティングを担当するシニアディレクターIlya Bukshteyn氏はこのように語る。Tellmeは2007年にMicrosoftに買収された音声認識技術の企業で、後にMicrosoftの音声技術グループに組み込まれている。「検索の意図を理解することは、単にデータを見つけるだけでなく、ユーザーが作業を完了できるよう実際に手助けする上で重要になっていく」(Bukshteyn氏)
CNET Japanの記事を毎朝メールでまとめ読み(無料)
パナソニックのV2H蓄電システムで創る
エコなのに快適な未来の住宅環境
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」
OMO戦略や小売DXの実現へ
顧客満足度を高めるデータ活用5つの打ち手