「Alexa」をお使いの方であれば、ある奇妙な動作に気づいているかもしれない。
Alexaがいきなり、邪悪な声で笑いだす。そんな話が先頃、インターネットの至るところで話題になった。
本記事では、「Alexa」という起動ワードと、Alexa対応デバイスを取り上げているが、これから述べる話は、現行の音声認識システムであればどれにでも当てはまる。
Alexaも他のAI音声システムも、ある大きな技術上の課題(少なくとも、その大部分)を乗り越えてきた。ありとあらゆるノイズ(文字どおりの雑音)が周囲に存在するなかでコマンドを聞き分け、応答するタイミングを理解するという問題だ。
開発者がその問題を解決するために出した当面の答えが、起動ワード、つまり所定の音声波形を聞き取るという方法である。Alexaデバイスのマイクは常時オンになっていて、ひとつひとつのマイクの振動板に届いた振動が、デジタル信号に変換される。
Alexaデバイス内部の処理ハブはその音声信号を調べ、それがあらかじめ決められた起動ワードと一致する場合にだけ、後に続く音声を処理するように設計されている。
いろいろなノイズをかき分けて起動ワードを聞き取るというのは、プログラミング上、並大抵の問題ではない。次の図に示した波形を見てほしい。
これが「Alexa」という単語の波形だ。プロ仕様のスタジオ用マイクを使って筆者が録音したものだが、このときは頭も口も、音声の録音に最も適した正確な位置に固定したままだった。室内は静かで、動いているのは筆者のコンピュータだけ。
それでは、ほんの1.5mほど離れて、もう一度「Alexa」という起動ワードを口にしたら、波形はどうなるだろうか。
ご覧のとおり、波形はわりと保たれているものの、振幅はかなり小さくなっている。
Alexaデバイスのプロセッサは、どうにかして、聞き取った波形が起動ワードに一致することを認識し、起動してコマンドを待ち受ける態勢にならなければならない。Alexaデバイスは、いくつかの方法でこれを実現している。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」