「OK、Glass、写真を撮って」
「Xbox、HBOでは何の番組をやっているの」
「Siri、『Angry Birds』をプレイ」
「Xbox One」の発表の間、筆者はMicrosoftがこのデバイスの中に多くの音声コマンドを組み込んでいることに強い印象を受けた。「Kinect」はこのゲーム機に一連の基本コマンドを導入したが、今や映画の再生からアプリの起動まで、あらゆることが音声でできるようになった。「Xbox, Live TV」は、筆者がリビングルームでよく口にする一言になるかもしれない。
音声コマンドが大きく期待できると考えているのは、Microsoftだけではない。「Google Glass」の価値提案の大部分は、同社の(大抵は)滑らかな音声コマンドによってもたらされている。筆者はいまだに、音声コマンドで写真をスクロールして見ていくことができないのだが、カメラに触れずに写真を撮影できるのは、大きな変化をもたらすだろう。
さらには、Googleがデスクトップでの音声検索に力を入れていることを忘れてはならない。「Chrome」ユーザーは「OK、Google」というだけで、キーボードなしで検索できる。Chromeが備えている自然言語処理の能力に、Google I/Oカンファレンスの聴衆は大喜びした。「ロンドンですべきことを教えて」といった質問に答えることは、Googleの計画の始まりにすぎない。そしてその機能は検索の中に組み込まれているため、Google Glassでも同じことができる。
最後に、Appleの「Siri」がある。これにはがっかりさせられてきたが、WWDCで大規模なアップデートが発表されるだろうと筆者は考えている。Siriは既に、基本的なコマンドを理解できるようになっており、アラームの設定やアプリの起動、スマートフォンから直接ツイートする場合などには便利だ。その音声認識テクノロジは特に自然言語に関しては手直しが必要だが、MicrosoftとGoogleがここ数週間で音声認識に関する大きな発表をしたからには、Siriチームも大慌てで動いているのではないかと思われる。
そういえば、自動車メーカー9社がSiriを自動車に搭載していることも忘れてはならない。
音声コマンドテクノロジには数十年の歴史があるが、そのテクノロジはぎこちなくて、キーボード入力よりもはるかに不正確だった。しかしGoogleやApple、Microsoft、Nuance、さらにいくつかの大手テクノロジ企業のおかげで、音声認識はユーザーがすぐに使えるところまで到達している。
自然言語認識も大きく前進している。10年前には、自分のメガネと会話できるなどと誰が考えただろうか。しかし、その可能性は今や現実となっており、われわれがテクノロジとやり取りする方法を変えようとしている。
この新しい音声テクノロジの波に消費者がどう反応するかはまだ分からない。われわれは社会全体として、マウスやキーボードを介してテクノロジとやり取りすることに慣れているし、レストランにいるときに音声コマンドを叫ぶのはマナーに反している。
しかし筆者は、自分がGoogle Glassに無意識にささやき、Glassが実際にその声を拾うということに気づいた。また、筆者が音声コマンドを使うことを人々が素直に受け入れてくれるのは、筆者がGoogle Glassを装着して、それをテストしている最中だからだということも分かった。では、Google Glassやそのほかの音声コマンドを多く使うデバイスが広く普及した場合、音声認識は一般的に、われわれの社会により受け入れられるようになるだろうか。
それは分からない。われわれはみな、Google Glassのユーザーは間抜けだと考えて、Google Glassは「Segway」の二の舞になるかもしれない。しかし確実に分かっているのは、2013年が音声認識と音声コマンドにとって転換の年になるということだ。
この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス
住環境に求められる「安心、安全、快適」
を可視化するための“ものさし”とは?
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」