> >

AI開発でユーザーの会話を盗み聞きするアマゾンと「Alexa養育係」の話

坂和敏2019年04月26日 07時00分

特集

　Amazonが進める「Alexa」向けの人工知能（AI）開発について、4月中旬に出ていたBloombergの調査報道記事の補足を記す。この話についてはすでにBloomberg日本版に部分的な翻訳記事が出ており、またCNET Japanにも下記の言及記事が出ているので、そちらも参考にしていただきたい。

まずい話まで録音してしまうAlexa

　上述のBloomberg記事の内容をざっくりおさらいすると、Alexaユーザーの生成した音声データの認識率を高めるために、Amazonの開発部隊では、Alexaを動かすAIの聞き取りミスの確認・修正等を行っているが、その過程で本来聞いてはいけない類の情報まで耳にしてしまっている例が何件もある、といったものになる。Alexaの「養育係」にあたる従業員が運悪く耳にしてしまった「まずい話」については次のような具体例が出ている。

個人の名前や銀行情報の詳細など
助けを求める子供の声
性的暴行と思われる声もしくは物音

　2番目については、単に転んだ幼児が泣いているだけなのかもしれない（幼児虐待の証拠とは限らない）。3つめについては、どうしてそんな類の音が記録されたかは不明だが、Alexaはユーザー以外の音や声にもよく反応してしまうので、たまたま録音されてしまったものかもしれない。いずれにせよ、「Echo」や「Echo Dot」の上部の青い光のリングがぐるぐるしている間にはAlexaの録音スイッチが入っていて、しかもマイクの感度がいいせいか、背後での会話（あるいは夫婦喧嘩や親子喧嘩）などユーザー本人が意図しない音の情報まで吸い上げられる、そしてそれが（どれくらいの確率だかはわからないが）人の耳に触れる可能性がある。プライバシーについて敏感な方はやはり気にしておいたほうがいい可能性だと思う（あるいはAlexaやEchoのプライバシー設定を変更して、開発のために録音データを提供しない、としておく手もある）。

　この件について、Amazon側はある種の決まり文句ーーきちんとした内規を設けて、プライバシーに関わるデータに間違いが無いように手を打っている云々ーーしかBloombergに回答していない。これまでに「養育係」の従業員によるデータの不正利用があったかどうか、などはわからない。

Apple、GoogleとAmazonとの違い

　AmazonがAlexa経由で集めている音声データは、データを生成した各ユーザーの氏名や住所こそ見られないようになっているが、ユーザーのファーストネームやアカウント番号、それに端末のシリアル番号は紐づけられているという。悪意ある人間なら乱用できそうな仕組みで、Amazonがこのあたりの点に関して社内にどのようなシステム上の「ファイアウォール」を設けているかなどは興味を引くところだが、当然ながらこのBloomberg記事には答えはない（「当然ながら」というのは、そんな重要な話をわざわざ外部に明かすはずもないという意味だ）。

　それに対して、Amazon同様に人手も利用したデータレビュー＝AIのトレーニングを行っているApple（「Siri」）やGoogleの開発チームの場合は、ユーザーを特定可能な情報は録音したデータに紐づけられていない、またGoogleの場合は音声を変形させてある、一方Appleの場合は録音後6カ月間はランダムなID番号を付けて保存、その後はこのIDを取り除いた形で保存し続ける可能性もある、などとBloombergは記している。