> >

「Amazon Echo」の裏側--「Alexa」が突然笑いだした原因を考える

David Gewirtz （Special to ZDNET.com）翻訳校正：川村インターナショナル2018年03月14日 07時30分

　「Alexa」をお使いの方であれば、ある奇妙な動作に気づいているかもしれない。

　Alexaがいきなり、邪悪な声で笑いだす。そんな話が先頃、インターネットの至るところで話題になった。

Alexaの起動

　本記事では、「Alexa」という起動ワードと、Alexa対応デバイスを取り上げているが、これから述べる話は、現行の音声認識システムであればどれにでも当てはまる。

　Alexaも他のAI音声システムも、ある大きな技術上の課題（少なくとも、その大部分）を乗り越えてきた。ありとあらゆるノイズ（文字どおりの雑音）が周囲に存在するなかでコマンドを聞き分け、応答するタイミングを理解するという問題だ。

　開発者がその問題を解決するために出した当面の答えが、起動ワード、つまり所定の音声波形を聞き取るという方法である。Alexaデバイスのマイクは常時オンになっていて、ひとつひとつのマイクの振動板に届いた振動が、デジタル信号に変換される。

　Alexaデバイス内部の処理ハブはその音声信号を調べ、それがあらかじめ決められた起動ワードと一致する場合にだけ、後に続く音声を処理するように設計されている。

　いろいろなノイズをかき分けて起動ワードを聞き取るというのは、プログラミング上、並大抵の問題ではない。次の図に示した波形を見てほしい。

　これが「Alexa」という単語の波形だ。プロ仕様のスタジオ用マイクを使って筆者が録音したものだが、このときは頭も口も、音声の録音に最も適した正確な位置に固定したままだった。室内は静かで、動いているのは筆者のコンピュータだけ。

　それでは、ほんの1.5mほど離れて、もう一度「Alexa」という起動ワードを口にしたら、波形はどうなるだろうか。

　ご覧のとおり、波形はわりと保たれているものの、振幅はかなり小さくなっている。

　Alexaデバイスのプロセッサは、どうにかして、聞き取った波形が起動ワードに一致することを認識し、起動してコマンドを待ち受ける態勢にならなければならない。Alexaデバイスは、いくつかの方法でこれを実現している。

CNET Japanの記事を毎朝メールでまとめ読み（無料）