監視カメラは昨今、いたるところに設置されており、研究者はその性能アップのために日夜努力している。最近の技術的な進歩の1つに、他の何かで部分的に隠されている人物の画像から、完全な全身像を構築(あるいは、機械学習用語では「hallucinating:幻覚を起こさせる」)する技術がある。
見たい物体や人物の一部が、その手前にある物体や人物によって遮られていることがある。例えばニューヨークのタイムズスクエアのように混雑した公共の場では、監視カメラに見たい人物の全身像が映ることはまずない。
伊モデナ・レッジョ・エミリア大学の研究者が発表した論文「Can Adversarial Networks Hallucinate Occluded People With a Plausible Aspect?(敵対的ネットワークは部分的に遮られている人物のそれなりな全身像を幻覚させることができるか?)」のテーマはこれだ。彼らの目標は、部分的に隠れて見えない1枚の人物画像から、その人物のそれなりな全身像を描き出すことだ。
論文に掲載されている、テスト用データセットから再構築したサンプルで、成果を確認できる。
私は感銘を受けた。
研究者たちは論文で、この問題の解決のために新たなアプローチを採用したと述べた。
U-NetsおよびGANという最新のニューラルネットワークアーキテクチャと識別属性分類ネットを、人物画像を遮っているものを排除するために設計したアーキテクチャに統合することにより……
引用したテキストに登場する用語を順番に説明しよう。「U-Net」は、生物医学画像の迅速で正確なセグメンテーションのために設計された畳み込みニューラルネットワーク。「GAN(Generative Adversarial Networks:敵対的生成ネットワーク)」は、教師なし機械学習で使われる、ゼロサムゲームのフレームワークで互いに競い合う2つのニューラルネットワークだ。識別属性分類ネットは、品質検査係としてふるまい、偽物だと判断した創作画像を排除し、AIをだませた画像だけを残す。
この組み合わせは、上の画像が示すように、驚くほど効果的だ。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」