スマートスピーカーで何らかの処理を実行させるには、コマンドを伝える前に「Alexa」や「OK Google」などのウェイクワードを発声しなければならない。スマートスピーカーは、こうしたウェイクワードを検知してから音声コマンドの解析を始めるわけだ。しかし、ウェイクワードを言い忘れた場合には最初から発声し直す必要があり、ユーザーとしては面倒で使い勝手が悪い。
これに対し、Amazon.com傘下のAmazon Technologiesは、先頭以外にウェイクワードの入った音声コマンドも処理可能な技術を考案。この技術を米国特許商標庁(USPTO)へ出願したところ、米国時間5月23日に「PRE-WAKEWORD SPEECH PROCESSING」(公開特許番号「US 2019/0156818 A1」)として公開された。出願日は2019年1月24日。
この特許は、音声コマンドを受けて何らかの処理を実行する際に、音声コマンド認識用のウェイクワードが先頭以外に入っていても対応可能にする技術を説明したもの。システムはマイクで常に音声を拾っており、ウェイクワードを検出するとその前後の音声群をコマンドとみなしてサーバーへ送る。そして、サーバーからの返信で何らかの命令を受け取ると、それにしたがった動作を実行する。
ウェイクワード前後の音声群をコマンドとして扱うために、この技術では音声を一時的に保存しておき、ウェイクワードより前に発声された音声もコマンドに含める。一連の音が1つのコマンドを構成する音声かどうかは、音と音の時間的な間隔のほか、声の調子や高さ、話すスピードなどの基準を利用して判断する。
なお、特許とは、技術的アイデアの権利保護を目的とした公的文書である。登録されて成立しても、実際の製品やサービスで利用されるとは限らない。さらに、アイデアの存在を公知の事実にする目的で出願され、登録に至らず公開止まりになるものも少なくない。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」