音声コマンドで音楽を流したり照明を操作したりできるスマートスピーカーは、あまりにも自然に使えるため、機械であることをつい忘れてしまう。しかし、しょせんは機械なので、人間相手のつもりで意味の曖昧な音声コマンドを投げかけると、うまく動かない。
これに対しAppleは、ユーザーの視線情報を検知し、その情報に応じて機能するスマートスピーカー向け技術を考案。この技術を米国特許商標庁(USPTO)へ出願したところ、米国時間12月8日に「DEVICE CONTROL USING GAZE INFORMATION」(特許番号「US 10,860,096 B2」)として登録された。出願日は2019年8月28日、公開日は2020年4月2日(公開特許番号「US 2020/0103963 A1」)。
この特許は、音声に反応して動くデバイスの制御技術を説明したもの。このデバイス自体が動くだけでなく、音声コマンドに応じてほかのデバイスを制御する技術もカバーしている。クレーム(請求項)で具体的なデバイスの種類は限定していないが、実施例の説明と図面から、スマートスピーカーを想定した技術と考えられる。クレームで判断する限り、スマートディスプレイにも適用可能だ。
特許のデバイスは、ユーザーが発した音声コマンドに従って何らかの動作を実行する。さらに、カメラを搭載しており、ユーザーがどこを見ているか認識する、つまりユーザーの視線を捉える機能も備えている。そして、このデバイスは音声コマンドだけでなく、視線情報も動作実行時の条件として利用する。
たとえば、音声コマンドに該当する音声入力があったとしても、ユーザーがデバイスを見ていない場合は動作実行を意図した発声でないと判断し反応しない、という制御が可能だ。また、デバイスの周囲に複数の人がいても、デバイスを見ながら発声した人をユーザーとみなし、そのユーザーに合わせた動きをするアイデアにも言及している。
ユーザーがウェイクワードで音声デバイスを起動させたのち、操作したい別のデバイスを見ながら音声コマンドを発声した場合は、デバイスが別のデバイスに対してコマンドに応じた動作を指示する。実施例では、ユーザーがテーブル上のライトを見ながら単に「明かりをつけて」と呼びかけると、テーブルのライトだけが点灯する、という処理が説明されている。
なお、特許とは、技術的アイデアの権利保護を目的とした公的文書である。登録されて成立しても、実際の製品やサービスで利用されるとは限らない。さらに、アイデアの存在を公知の事実にする目的で出願され、登録に至らず公開止まりになるものも少なくない。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス