モスクワにあるサムスンの人工知能(AI)センターの研究者らが、顔の静止画像から「人が話をしている動画」を生成できる新システムを開発した。
この研究によると、このシステムは、ターゲットとなる顔から抽出したランドマーク(顔の輪郭や目、眉、口などを単純な線で表したもの)をソースとなる顔(たとえば静止画像)に当てはめ、ターゲットとなる顔の動きに合わせてソースとなる顔の表情が動く、実物そっくりな会話中の顔を作る。
サムスンは次のように述べている。「こうした機能には、ビデオ会議やマルチプレーヤーゲームなどのテレプレゼンスのほか、特殊効果業界向けの実用的な用途がある」
「ディープフェイク」技術の存在は目新しいものではないが、サムスンの新システムは3Dモデリングを使用せず、顔のモデルを作るのに1枚の写真しか必要としない。システムがモデルを作成するのに32枚の画像を使用できれば、「完全なリアリズムとパーソナライズを実現」できる、とサムスンは述べている。
サムスンによると、限られた量の写真から「ディープフェイク」動画を作成できるのは、システムに会話中の顔の動画を集めた大規模なデータバンクがあり、外見の異なるさまざまな話し手に対応できるからだという。ソースとなる顔のランドマークとともにこのデータバンクを利用することで、新システムはリアルな外見のさまざまな顔モデルを生成できる。
その後、このシステムは、さまざまな顔モデルを互いに比較してどのモデルが最も「リアル」かを判断する敵対的生成ネットワーク(GAN)を利用する。生成された各モデルを絞り込んで、動画に使用する最終的なモデルを選択できる。
「ディープフェイク」動画は現在、米国の議員らにとって大きな懸念材料となっている。AIに操られて実際には言っていないことを言う人の動画が、国家安全保障上の脅威になりうると心配しているのだ。
この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス