ソーシャルメディアを安全に使うには、車のナンバープレートや通りの名称、自宅の住所といった個人情報が写り込んだ写真を投稿しないことなどが挙げられる。だがそれでも、人工知能(AI)が写真の背景を見るだけで投稿者の居場所を特定できると聞いたら、どう思うだろう。
AIの開発が進むにつれて、新たな用途が次々と明らかになっている。今度はスタンフォード大学の大学院生らが、ストリートビューや、さらにはたった1枚の画像からでも、写っている場所を特定できるアプリケーションを開発した。
このプロジェクト「Predicting Image Geolocations」(PIGEON)では、大半のケースで、Googleの「ストリートビュー」の画面を見るだけでその場所を正確に特定できる。
arXiv.org(査読なしのオープンアクセスジャーナル)に掲載された論文によると、PIGEONでは写真に写っている国を92%の精度で推定でき、実際に撮影された場所から25km以内の範囲でその場所を推測できる確率は40%以上だという。
これがどれだけ優れた能力なのかを理解するのに役立つデータがある。PIGEONは「GeoGuessr」のプレイヤーランキングで上位0.01%以内に入ったという。GeoGuessrは、Googleストリートビューの写真の場所を当てるゲームだ。このゲームが発端となってPIGEONプロジェクトが生まれた。
PIGEONはまた、プロのGeoGuessrプレイヤーとして世界トップクラスのTrevor Rainbolt氏を6戦連続で破った。その模様をオンラインでストリーミング配信した動画は170万回以上視聴されている。
PIGEONの具体的な仕組みはどうなっているのだろうか。
学生らは「Contrastive Language-Image Pre-training」(CLIP)を利用した。CLIPはOpenAIが開発したニューラルネットワークで、認識すべき視覚的カテゴリーの名称に基づいて訓練することで、テキストと画像を結びつけることができる。
さらにPIGEONはGeoGuessrから着想を得て、同サービスから無作為にサンプル抽出した10万カ所のオリジナルデータセットと、特定の場所のパノラマを構成する画像4枚のダウンロードセット、これらを合計して40万枚の画像でトレーニングした。
他のAIモデルを訓練するのに使われる膨大な数の画像に比べると、PIGEONの学習データははるかに少ない。参考までに、人気の高いOpenAIの画像生成モデル「DALL・E 2」は、数億枚の画像でトレーニングされている。
学生らは、「PIGEOTTO」という別のモデルの開発にも取り組んだ。このモデルは、「Flickr」と「Wikipedia」から取得した400万枚以上の写真を使って訓練したもので、画像を1枚読み込ませると場所を特定できる。
論文によると、PIGEOTTOの性能は画像ジオローカライゼーション(位置情報特定)のベンチマークで目覚ましい結果を達成し、これまで最先端だった他のモデルの結果と比べて、都市を特定する精度は最大7.7ポイント、国を特定する精度は最大38.8ポイント上回ったという。
論文では、倫理的な観点からこのモデルの利点とリスクについても検討している。まず、画像ジオローカライゼーションには多くのポジティブな用途があり、例えば自動運転や視覚的調査のほか、単に写真の撮影場所を知りたいという好奇心を満たすこともできる。
反対に、悪影響をもたらすリスクとして挙げられるのが、個人の居場所が特定されることによるプライバシーの侵害だ。その点を考慮し、学生らはモデルの重み値を一般に公開せず、学術的検証のためにのみコードを提供することにしたと論文の中で述べている。
この記事は海外Red Ventures発の記事を朝日インタラクティブが日本向けに編集したものです。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
「程よく明るい」照明がオフィスにもたらす
業務生産性の向上への意外な効果
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス
住環境に求められる「安心、安全、快適」
を可視化するための“ものさし”とは?
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」