> >

サムスン、静止画像から「人が話している動画」を生成する技術を開発

Campbell Kwan （ZDNET.com）翻訳校正：矢倉美登里吉武稔夫（ガリレオ）2019年05月24日 10時13分

　モスクワにあるサムスンの人工知能（AI）センターの研究者らが、顔の静止画像から「人が話をしている動画」を生成できる新システムを開発した。

提供：Samsung

　この研究によると、このシステムは、ターゲットとなる顔から抽出したランドマーク（顔の輪郭や目、眉、口などを単純な線で表したもの）をソースとなる顔（たとえば静止画像）に当てはめ、ターゲットとなる顔の動きに合わせてソースとなる顔の表情が動く、実物そっくりな会話中の顔を作る。

　サムスンは次のように述べている。「こうした機能には、ビデオ会議やマルチプレーヤーゲームなどのテレプレゼンスのほか、特殊効果業界向けの実用的な用途がある」

　「ディープフェイク」技術の存在は目新しいものではないが、サムスンの新システムは3Dモデリングを使用せず、顔のモデルを作るのに1枚の写真しか必要としない。システムがモデルを作成するのに32枚の画像を使用できれば、「完全なリアリズムとパーソナライズを実現」できる、とサムスンは述べている。

　サムスンによると、限られた量の写真から「ディープフェイク」動画を作成できるのは、システムに会話中の顔の動画を集めた大規模なデータバンクがあり、外見の異なるさまざまな話し手に対応できるからだという。ソースとなる顔のランドマークとともにこのデータバンクを利用することで、新システムはリアルな外見のさまざまな顔モデルを生成できる。

　その後、このシステムは、さまざまな顔モデルを互いに比較してどのモデルが最も「リアル」かを判断する敵対的生成ネットワーク（GAN）を利用する。生成された各モデルを絞り込んで、動画に使用する最終的なモデルを選択できる。

　「ディープフェイク」動画は現在、米国の議員らにとって大きな懸念材料となっている。AIに操られて実際には言っていないことを言う人の動画が、国家安全保障上の脅威になりうると心配しているのだ。

この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。

CNET Japanの記事を毎朝メールでまとめ読み（無料）