匿名データからの個人特定は容易?--特定率99.98%との研究結果

Rae Hodge (CNET News) 翻訳校正: 編集部2019年07月27日 11時00分

 医療情報や納税記録、クレジットスコア(個人の信用偏差値)、ブラウザー履歴などの日々のデータを扱うブローカーは、匿名化されているはずのユーザーのデータセットを不正に売買する。だが英学術誌「Nature Communications」に現地時間7月23日に掲載された研究によると、そういったデータセットの個人識別情報を暴くのは、想像以上に容易だ。

暗闇でキーボードを押す様子
提供:James Martin/CNET

 15の人口統計学的属性を利用することにより、インペリアル・カレッジ・ロンドンやベルギーのルーヴァン・カトリック大学の研究者らは、「あらゆるデータセットで99.98%の米国人を正しく再特定できる」と述べた。研究者らによると、この研究が示しているのは、再特定は現実的なリスクであり、現行の匿名化の方法が欧州の一般データ保護規則(GDPR)やカリフォルニア州消費者プライバシー法(CCPA)などの現代のデータ保護法に則っているのかという疑問が生じるということだ。

 研究者らは、米国勢調査局やUCI機械学習リポジトリなどの5つのソースから集めた210の異なるデータセットから取得した個人に関する公共情報を使用した。匿名化されたデータでユーザーを特定するのはどれほど容易だろうか。インペリアル・カレッジ・ロンドンの研究グループであるComputational Privacy Groupは、匿名のデータセットで個人を正しく再特定できる可能性がどの程度あるかを確認するウェブページを作成した。ちなみにこのデモはユーザーのブラウザーのみで実行され、ユーザーの情報は収集されないとサイトに記されている。

 研究者らに追加のコメントを求めたがすぐには回答を得られなかった。

この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。

CNET Japanの記事を毎朝メールでまとめ読み(無料)

-PR-企画特集

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]