サムスン、静止画像から「人が話している動画」を生成する技術を開発

Campbell Kwan (ZDNET.com) 翻訳校正: 矢倉美登里 吉武稔夫 (ガリレオ)2019年05月24日 10時13分

 モスクワにあるサムスンの人工知能(AI)センターの研究者らが、顔の静止画像から「人が話をしている動画」を生成できる新システムを開発した。

提供:Samsung
提供:Samsung

 この研究によると、このシステムは、ターゲットとなる顔から抽出したランドマーク(顔の輪郭や目、眉、口などを単純な線で表したもの)をソースとなる顔(たとえば静止画像)に当てはめ、ターゲットとなる顔の動きに合わせてソースとなる顔の表情が動く、実物そっくりな会話中の顔を作る。

 サムスンは次のように述べている。「こうした機能には、ビデオ会議やマルチプレーヤーゲームなどのテレプレゼンスのほか、特殊効果業界向けの実用的な用途がある」

 「ディープフェイク」技術の存在は目新しいものではないが、サムスンの新システムは3Dモデリングを使用せず、顔のモデルを作るのに1枚の写真しか必要としない。システムがモデルを作成するのに32枚の画像を使用できれば、「完全なリアリズムとパーソナライズを実現」できる、とサムスンは述べている。

 サムスンによると、限られた量の写真から「ディープフェイク」動画を作成できるのは、システムに会話中の顔の動画を集めた大規模なデータバンクがあり、外見の異なるさまざまな話し手に対応できるからだという。ソースとなる顔のランドマークとともにこのデータバンクを利用することで、新システムはリアルな外見のさまざまな顔モデルを生成できる。

 その後、このシステムは、さまざまな顔モデルを互いに比較してどのモデルが最も「リアル」かを判断する敵対的生成ネットワーク(GAN)を利用する。生成された各モデルを絞り込んで、動画に使用する最終的なモデルを選択できる。

 「ディープフェイク」動画は現在、米国の議員らにとって大きな懸念材料となっている。AIに操られて実際には言っていないことを言う人の動画が、国家安全保障上の脅威になりうると心配しているのだ。

この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。

CNET Japanの記事を毎朝メールでまとめ読み(無料)

-PR-企画特集

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]