「Amazon Echo」の裏側--「Alexa」が突然笑いだした原因を考える - (page 3)

David Gewirtz (Special to ZDNET.com) 翻訳校正: 川村インターナショナル2018年03月14日 07時30分

 Alexaは、何千種類というコマンドを解析する必要があるだけではない。波形が本来あるべき形を成していない場合がある。音声処理システムは、受け取った波形から、発話した人が何を要求しているのか解釈できるように、最善を尽くさなければならない。

 起動ワードと同様、無数の人がいて、方言やアクセント、声の高低、デバイスからの距離、周囲のノイズといった条件があることを考えれば、その処理はやはり並大抵のことではない。

 率直に言えば、これがともかく機能しているというのが、驚き以外のなにものでもない。そう考えれば、波形を誤って解釈する、誤検出された音声をそのまま受け取る、あるいは有効なはずのリクエストを無視するといった場合に、Alexaがまるで常軌を逸したように見えることもあり得る。

コマンドへの応答

 Alexaのあらゆる動作のなかで、コマンドに応答するという部分は簡単な部類に入る。時間を尋ねられている、とAlexaのバックエンドAIが判断すれば、時間検索のプログラム自体は簡単だからだ。音声を合成して応答するのも簡単である。このときの変数は、発する単語の文字列しかないからだ。

 Alexaが不審な動作をしているように見えるのなら、ほとんど場合、問題があるのはAlexa AIの動作を司っている部分ではない。十中八九、認識を司っている部分だ。

 とはいえ、Alexaが正気を失ったと思われかねないコマンドは存在する。この記事の執筆時点で、スキルを「scream(叫ぶ)」で検索すると、サードパーティーのスキル4つが該当する。

figure_4

 「Joke - Surprise Scream Prank!」というスキルは、「Alexa, scream prank(Alexa、叫ぶいたずらをして)」というフレーズを受けて起動する。その60秒後に、叫び出すのだ。いたずら好きなら、これを設定しておいて、誰かがAlexaデバイスの近くに来たら叫び声を出させてからかうことができる。

 「Spooky Scream」はもっと不気味だ。「Alexa, ask Spooky Scream to start in two minutes(Alexa、2分後にSpooky Screamを起動させて)」というフレーズで起動する。時間設定は変更できるので、10分後に叫ぶよう設定すれば、あとはその場を離れてもいたずらを発動できる。

Alexaの誤動作

 指示していないのに突然不気味な声で笑いだすというケースでは、Alexaが誤った音声に反応してしまったという可能性が最も高い。次の波形をご覧いただきたい。

figure_5

 これは「Alexa, laugh(Alexa、笑って)」というフレーズを理想環境で録音したもので、大きい山が3つある。最初の2つが起動ワード「Alexa」に対応し、3つ目が「laugh(笑って)」に当たる。その山の部分が、実際にはかなりフラットになっていることが分かるだろう。これは、「laugh」という単語がソフトで、ピークも際立った特徴もないためだ。

 次の波形を見てみよう。これも同じフレーズだが、1.5m離れて発声された場合だ。

figure_6

 波形からは、何が起きているのかほとんど分からない。次の図は、上の波形を拡大したものだ。

figure_7

 突出している部分がいくつかあることは分かるものの、振幅は分かりにくい。これではデータがほぼないに等しい。Alexaが「laugh」という単純なコマンドに反応していたのだと考えると、Alexaデバイスが置かれている数百万の家庭のうち何軒かで、「laugh」というコマンドに解釈されてしまう条件を満たしたデータが生成されてしまっていた可能性が十分に考えられる。

この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。

CNET Japanの記事を毎朝メールでまとめ読み(無料)

-PR-企画広告

企画広告一覧

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]