「Amazon Echo」の裏側--「Alexa」が突然笑いだした原因を考える

David Gewirtz (Special to ZDNET.com) 翻訳校正: 川村インターナショナル2018年03月14日 07時30分

 「Alexa」をお使いの方であれば、ある奇妙な動作に気づいているかもしれない。

 Alexaがいきなり、邪悪な声で笑いだす。そんな話が先頃、インターネットの至るところで話題になった。

Alexaの起動

 本記事では、「Alexa」という起動ワードと、Alexa対応デバイスを取り上げているが、これから述べる話は、現行の音声認識システムであればどれにでも当てはまる。

 Alexaも他のAI音声システムも、ある大きな技術上の課題(少なくとも、その大部分)を乗り越えてきた。ありとあらゆるノイズ(文字どおりの雑音)が周囲に存在するなかでコマンドを聞き分け、応答するタイミングを理解するという問題だ。

 開発者がその問題を解決するために出した当面の答えが、起動ワード、つまり所定の音声波形を聞き取るという方法である。Alexaデバイスのマイクは常時オンになっていて、ひとつひとつのマイクの振動板に届いた振動が、デジタル信号に変換される。

 Alexaデバイス内部の処理ハブはその音声信号を調べ、それがあらかじめ決められた起動ワードと一致する場合にだけ、後に続く音声を処理するように設計されている。

 いろいろなノイズをかき分けて起動ワードを聞き取るというのは、プログラミング上、並大抵の問題ではない。次の図に示した波形を見てほしい。

figure_2

 これが「Alexa」という単語の波形だ。プロ仕様のスタジオ用マイクを使って筆者が録音したものだが、このときは頭も口も、音声の録音に最も適した正確な位置に固定したままだった。室内は静かで、動いているのは筆者のコンピュータだけ。

 それでは、ほんの1.5mほど離れて、もう一度「Alexa」という起動ワードを口にしたら、波形はどうなるだろうか。

figure_3

 ご覧のとおり、波形はわりと保たれているものの、振幅はかなり小さくなっている。

 Alexaデバイスのプロセッサは、どうにかして、聞き取った波形が起動ワードに一致することを認識し、起動してコマンドを待ち受ける態勢にならなければならない。Alexaデバイスは、いくつかの方法でこれを実現している。

CNET Japanの記事を毎朝メールでまとめ読み(無料)

-PR-企画特集

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]