お使いのブラウザは最新版ではありません。最新のブラウザでご覧ください。

CNET Japan ブログ

音声検索の現状の課題と普及の可能性

2013/06/17 12:30
  • このエントリーをはてなブックマークに追加

プロフィール

渡辺隆広

日本でSEOを始めた第一人者として知られるアイレップサーチエンジンマーケティング総合研究所 所長の渡辺隆広氏が、競争の激化する検索市場をビジネス、マーケティング、テクノロジーの各方面から掘り下げます。
ブログ管理

最近のエントリー

ここ1~2年ほど、検索技術やそのエマージング・テクノロジー(emerging technology)に着目しつつ、特にデジタルネイティブ世代(1990年生まれ以降と定義)の検索に対する意識や日常生活における検索行動・役割にフォーカスした、様々な調査・研究を行っています。今回はその中で、「音声検索」について、簡単に取り上げたいと思います。

話しかけることで検索できる「音声検索」

音声検索とは、文字列ではなく、皆さんの発話する声により検索できる技術やサービスを指します。有名なところでは、Apple iOS に搭載される Siri や、 Google音声検索が挙げられるでしょう。まだ一般発売されていませんが、Google Glass も音声で操作ができますね。最近では、カーナビでも音声操作できるものがありますし、一部メーカーが販売する液晶テレビでも音声による操作や番組検索ができるもの、携帯電話やスマートフォンに話しかけるとそのまま指定した言語に翻訳してくれるものなども出てきていますが、このように近年、音声解析技術を使ったサービスが登場してきています。

さて、音声検索は、キーボードやスクリーンで文字列を打つ必要がない、両手がふさがっている時でも情報にアクセスできる、発声という直感的なアプローチができる、検索結果に該当するものをコンピュータによる音声回答が出来れば、疑似的な対話によりインターネットから欲しい情報が容易に取り出せるようになる、等の理由から、以前から将来性が期待されていました。

しかしながら、少なくとも現状、インターネット検索における音声検索は、普及が進んでいるとはいえません。本件に関するどの会社の調査結果を見ても、せいぜい1~2割程度の人しか利用した経験がありませんし、継続的に利用している人となると、もっと割合は下がります。米国と比較すると、日本における利用率はもっと下がります。

音声検索の普及が進まない原因はどこにあるのでしょうか。今回は、最近実施した定量的な調査及びフォーカスグループによる定性的な調査結果も交えつつ、理由を挙げていきたいと思います。

理由その1:音声認識精度の問題

現状、Google検索や Apple Siri による日本語音声認識能力は決して高くはありません。某社のCMで、歌を歌って検索~というものがありますが、実際に歌って検索しても全く正確に認識されません(試しました)。

実は、Googleマップ等での住所検索のような認識精度が高いカテゴリが一部あるのですが、全体的に見るとイマイチです。これは調査を通じても、「CM観て試したことはあるけどそれっきり」「何度か試したけど思い通りに認識してくれないからやめた」などの声が大勢を占めました。一度は試したことがあるという人は半数程度いるのですが、継続的に利用する人はほぼゼロというのが現状であり、文字入力した方が早いということを示しています。

検索サービスにおける音声認識の難しさは、その汎用性にあります。テレビ搭載の音声認識は基本的にテレビ番組名や出演者名など、番組と人物に関連する物事や、テレビ操作に関連する物事が認識できれば良いでしょう。同様にカーナビであれば基本的に住所・施設名など、地図情報に関連する物事を認識できれば良いです。このように、特定用途の機器であれば、認識すべき範囲や文脈はある程度絞り込みこむことができる、つまり候補を限定できるのですが、汎用的な検索サービスではそうはいきません。先に住所は認識しやすいと説明しましたが、住所は決まっているので東京都○△□区○△△町などのような連続性の音声を認識した時に、○△□に入る言語は限定できるので結果的に精度はよくなります。

理由その2:携帯からの入力に慣れた人々

これはデジタルネイティブ世代の人に見られる傾向ですが、小さな頃から携帯からの入力で育ってきた人にとって、音声入力はそれほど魅力的ではない、ということです。

きっと30歳代以上の方で、携帯電話(従来型、スマホ含む)よりもPCの方に先に触れたという方は、あの小さなスマートフォンやフィーチャーフォン(従来型携帯)での入力よりも、PCのキーボードの方が入力が楽だという人はいらっしゃるのではないでしょうか。実は、そういった方々は、「携帯での文字入力よりも発声の方がスムーズにアクションがとれるから」音声検索が優れているという論理でもって将来の普及の可能性を述べられていました。

しかしこの論理は、そもそも「音声入力 >> 携帯での入力」と「PCキーボード >> 携帯での入力」という関係性を前提においた考え方なのです。しかし実際には、デジタルネイティブ世代は、PCのキーボードよりも先に携帯電話のテンキーパッドによる文字入力に触れ、育ってきています。そのため、皆さんがPCのキーボードが便利だと思っているくらいに、携帯のテンキーパッドが便利だと思っている人も少なくないのです。

そんな人々にとって見ると、別に音声による検索というのはそれほど魅力的には映らないのでしょう。

理由その3:1人で携帯機器に話しかけることの心理的ハードル

これは日米の文化的背景に起因する問題です。米国に行くと、ワイヤレス機器を用いてハンズフリー通話を利用している人をよく見かけます。歩きながら独り言を話しているかと思いきや、ハンズフリー機器を使っています。また、車社会である米国では、社内で何か探す時に音声発声に支障はありませんし、むしろ運転中にキーを押さずに探せるのはとても便利です。

対する日本でハンズフリー機器を使って誰かと通話している人は少ないですね。公共機関の乗り物内での通話すら遠慮するここ日本において、1人で携帯端末に話しかけて検索をするという行為は、ハードルが比較的高いのです。どこかの誰かと話をする前提で携帯機器に話しかける(通話)するのと、検索するために独り言で機器に話しかけるのは、ちょっと意味が違うのは皆さんも感覚的にご理解いただけるのではないでしょうか。こうした文化的な背景の違いが、日米での音声検索の利用に対する期待や懸念の違いを生み出していると考えられます。

将来的に、どうなの?

急速に技術が進化している昨今、最初に挙げた認識精度の問題は数年もすれば解消されてくると思いますが、問題は残りの2つでしょうか。

特定の、限定的な場面における音声検索は利用が広がっていく可能性は十分にありますが(たとえば、車内でカーナビがわりにスマートデバイスを使う時に、音声で場所検索をする、自宅でテレビ番組表を見る為に自分の端末に話しかける、といった限定的用途、利用シーン)、従来のすべての検索場面で音声検索が広がるとは、考えにくいです。特に3番目に挙げたような文化的背景は、障害になるでしょう。

先日の GOogle I/O 2013 で同社は会話型検索サービスをリリースしてデモを見せてくれましたが、技術的にはともかく、あれが便利だと感じる利用シーンというのが、私には想定できませんでした。

私たちの日常生活の中で、特に公共の場における音声操作可能な機器が普及してくれば、「1人で機会に話しかける」ことの違和感は次第に拭えられると共に「手を使わずに情報にアクセスできる便利さ」を体感的に理解できるようになり、それが音声検索を後押しするのかもしれませんが、そういう時代が来るのはずっと先ではないでしょうか。

※このエントリは CNET Japan ブロガーにより投稿されたものです。朝日インタラクティブ および CNET Japan 編集部の見解・意向を示すものではありません。
運営事務局に問題を報告

最新ブログエントリー