スマートフォンやカーナビゲーションの普及とともに、操作手段の1つとして市民権を得つつある音声認識機能。しかし機器との対話は、内容を正確に読み取れているか、返答は的確だろうかという部分が優先され、"人間味”を感じることはできなかった。
ヤマハが今回発表した新技術「HEARTalk(ハートーク)」は、一本調子ともとれる機器との対話に感じる不自然さをなくし、人間同士の会話のような自然さをプラスできる「自然応答技術」。5月11日から一部の技術を利用できるソフトウェアとハードウェアを法人向けにライセンス提供している。
「人間同士の会話では、ゆっくり問いかけられればゆっくり返答する。こういった当たり前のやり取りが、現在の対話システムにはなかった」とHEARTalkの発案者である、ヤマハ研究開発統括部新規事業開発部VAグループ企画担当次長の松原弘明氏は現状を説明する。
対話を自然だと感じるのは、スピード、抑揚、声の強弱、長短、間などから構成される「韻律(いんりつ)」を合わせているため。機械は、韻律を合わせることなく対話するため、相手が嬉しそうに話しているのに、暗い印象を与える抑揚のない声で返答したり、悲しそうな話をしているのに高く強い声で返答したりと、不自然さが生じてしまうという。
HEARTalkでは、音声処理技術を用いて、人間の呼びかけの韻律をリアルタイムに解析。応答に適した韻律を導入することで、自然な対話を引き出す。
音声処理技術は、ヤマハが以前から手がけているカラオケの採点技術などを応用しているとのこと。歌唱合成技術「ボーカロイド」の開発でも知られるが「技術的な関連性はあるが、ボーカロイドそのものの技術は使っていない」(松原氏)とのことだ。
同日からライセンス提供しているのは、人間からの問いかけに対し、自然な韻律で「うん」「はい」などを返答する「相づち」に特化したもの。基盤モジュールをハードウェアとして用意するほか、「相づちソフトウェア」もそろえる。いずれも人間が発話する内容の解析はせず、韻律の解析処理のみで動作するため、少ない処理量で動作ができ、基盤モジュールも2cm四方程度の小型化を実現した。相づちのほか、対話ができる「対話システム」も準備しており、2016年内をメドに開発を進めている。
販売と対話システムの開発は、音声認識、対話などのビジネスを展開するフュートレックが担当し、音声合成部分についてはNTTアイティが手掛ける。ヤマハでは、スマートフォンやロボット、カーナビゲーション、玩具などへの導入を想定している。
HEARTalkは、ヤマハが約1年前からスタートした社内における新規事業アイデア募集の「バリューアンプリファイア」から生まれた新規事業。ヤマハの社員を対象に広くアイデアを募っており、現時点で応募は数百に上るという。3月に体験会を実施したスピーカから流れる音声を文字情報に変換してスマートフォンで見ることができる「おもてなしガイド」も同様に、バリューアンプリファイアから生まれたものだという。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス