グーグル、超リアルな動画生成AI「Lumiere」を発表--画像の一部を動画化する機能など

Sabrina Ortiz (ZDNET.com) 翻訳校正: 編集部2024年01月26日 11時23分

 Google Researchは米国時間1月23日、テキストプロンプトや画像から非常にリアルな動画を生成する時空拡散(Space-Time Diffusion)モデル「Lumiere」についての論文を発表した。

Lumiereの生成物
提供:Google Research

 論文によると、このモデルは、動画生成合成における重要な課題、つまり「多様性と一貫性のあるリアルな動き」を生み出すという課題に取り組むために設計されたという。通常、動画生成モデルでは、ぎくしゃくした動画が生成されるが、以下の動画を見ると分かるように、Googleのアプローチはよりシームレスな視聴体験を提供する。

 動画は滑らかに再生されるだけでなく、非常にリアルに見え、ほかのモデルよりも大幅に進化している。Lumiereは、シングルパスを通して動画全体を一度に生成する「Space-Time U-Net」アーキテクチャーでそれを実現している。

 この動画生成方法は、キーフレーム間を合成する既存のモデルとは異なる。論文によると、従来のアプローチでは、一貫性のある動画の生成が本質的に困難であるという。

 Lumiereは、テキストや画像を含むさまざまな入力から動画を生成することが可能で、通常の画像生成AIと同じようにテキストプロンプトから動画を生成(「Text-to-Video」)したり、画像とそれに付随するプロンプトを使用して、その画像が動く動画を生成(「Image-to-Video」)したりできる。

 また、単一の参照画像とユーザープロンプトをもとに、指定されたスタイルで動画を生成する「Stylized Generation」という楽しい機能もある。

 さらに、決められたテキストに基づいて動画を修正する「Video Stylization」、写真の特定の部分をアニメーション化する「Cinemagraphs」、動画内の欠落または損傷した部分を補完する「Video Inpainting」などの機能も備えている。

 Lumiereはまだ一般公開されていないが、もっと詳しく知りたい人や、実際に使われているところを見てみたい人は、Lumiereのウェブサイトにアクセスしてほしい。さまざまなタスクを実行する同モデルのデモが多数公開されている。

Lumiere

この記事は海外Red Ventures発の記事を朝日インタラクティブが日本向けに編集したものです。

CNET Japanの記事を毎朝メールでまとめ読み(無料)

-PR-企画広告

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]