Google Researchは米国時間1月23日、テキストプロンプトや画像から非常にリアルな動画を生成する時空拡散(Space-Time Diffusion)モデル「Lumiere」についての論文を発表した。
論文によると、このモデルは、動画生成合成における重要な課題、つまり「多様性と一貫性のあるリアルな動き」を生み出すという課題に取り組むために設計されたという。通常、動画生成モデルでは、ぎくしゃくした動画が生成されるが、以下の動画を見ると分かるように、Googleのアプローチはよりシームレスな視聴体験を提供する。
動画は滑らかに再生されるだけでなく、非常にリアルに見え、ほかのモデルよりも大幅に進化している。Lumiereは、シングルパスを通して動画全体を一度に生成する「Space-Time U-Net」アーキテクチャーでそれを実現している。
この動画生成方法は、キーフレーム間を合成する既存のモデルとは異なる。論文によると、従来のアプローチでは、一貫性のある動画の生成が本質的に困難であるという。
Lumiereは、テキストや画像を含むさまざまな入力から動画を生成することが可能で、通常の画像生成AIと同じようにテキストプロンプトから動画を生成(「Text-to-Video」)したり、画像とそれに付随するプロンプトを使用して、その画像が動く動画を生成(「Image-to-Video」)したりできる。
また、単一の参照画像とユーザープロンプトをもとに、指定されたスタイルで動画を生成する「Stylized Generation」という楽しい機能もある。
さらに、決められたテキストに基づいて動画を修正する「Video Stylization」、写真の特定の部分をアニメーション化する「Cinemagraphs」、動画内の欠落または損傷した部分を補完する「Video Inpainting」などの機能も備えている。
Lumiereはまだ一般公開されていないが、もっと詳しく知りたい人や、実際に使われているところを見てみたい人は、Lumiereのウェブサイトにアクセスしてほしい。さまざまなタスクを実行する同モデルのデモが多数公開されている。
Lumiereこの記事は海外Red Ventures発の記事を朝日インタラクティブが日本向けに編集したものです。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス