医療情報や納税記録、クレジットスコア(個人の信用偏差値)、ブラウザー履歴などの日々のデータを扱うブローカーは、匿名化されているはずのユーザーのデータセットを不正に売買する。だが英学術誌「Nature Communications」に現地時間7月23日に掲載された研究によると、そういったデータセットの個人識別情報を暴くのは、想像以上に容易だ。
15の人口統計学的属性を利用することにより、インペリアル・カレッジ・ロンドンやベルギーのルーヴァン・カトリック大学の研究者らは、「あらゆるデータセットで99.98%の米国人を正しく再特定できる」と述べた。研究者らによると、この研究が示しているのは、再特定は現実的なリスクであり、現行の匿名化の方法が欧州の一般データ保護規則(GDPR)やカリフォルニア州消費者プライバシー法(CCPA)などの現代のデータ保護法に則っているのかという疑問が生じるということだ。
研究者らは、米国勢調査局やUCI機械学習リポジトリなどの5つのソースから集めた210の異なるデータセットから取得した個人に関する公共情報を使用した。匿名化されたデータでユーザーを特定するのはどれほど容易だろうか。インペリアル・カレッジ・ロンドンの研究グループであるComputational Privacy Groupは、匿名のデータセットで個人を正しく再特定できる可能性がどの程度あるかを確認するウェブページを作成した。ちなみにこのデモはユーザーのブラウザーのみで実行され、ユーザーの情報は収集されないとサイトに記されている。
研究者らに追加のコメントを求めたがすぐには回答を得られなかった。
この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス