OpenAI、テキストから動画を生成するAIモデル「Sora」を発表

ZDNET Japan Staff2024年02月16日 11時54分

 OpenAIは米国時間2月15日、テキストから動画を生成できる人工知能(AI)モデル「Sora」を発表した。ユーザーのテキストプロンプトに基づき、現実的で想像力に富んだ最長1分間の動画を生成できるという。

OpenAIの動画からのスクリーンショット。ビル群の間を多数の魚が泳いでいる
提供:OpenAI/Screenshot by Lisa Lacy/CNET

 同社は、AIモデルが物理的な世界での動きを理解し、シミュレーションできるように訓練することで、現実世界のやり取りを必要とする問題解決に役立てたいと説明している。

 AIがもたらす害やリスクを評価するために編成された「レッドチーム」のメンバーや、ビジュアルアーティスト、デザイナー、映画制作者などに、同日よりSoraへのアクセスを提供し、今後の改善に向けてフィードバックを得る。

 Soraは複数のキャラクター、特定の種類のモーション、対象物や背景の詳細などを含む、複雑なシーンを生成できる。また、ユーザーのプロンプトを理解するだけでなく、それらのものが物理世界でどのように存在するかも理解できるという。

 一方、同社は現行のモデルに弱点があることも認めている。複雑なシーンの物理を正確にシミュレーションできなかったり、原因と結果を理解できないことがあるという。例えば、人がクッキーをかじった後、その跡がクッキーに反映されない場合などがある。

 ほかにも、左右を混同するなど、プロンプトの空間に関する説明や、カメラの動きをたどるといった経時的な出来事の説明を、誤って解釈することがあるという。

 同社は、誤解を招くコンテンツを特定できるように、Soraによって生成された動画を判別するためのツールも開発中だ。この生成モデルをOpenAI製品に導入する際は、動画の来歴情報が分かるC2PAメタデータを実装する計画だ。

 Soraが生成した多数の動画サンプルが、そのプロンプトとともに公開されている。ネオンの光がきらめく夜の東京を闊歩するスタイリッシュな女性や、雪原を歩んでくる巨大なマンモスの毛が風になびく様子などを見ることができる。

 1月にはGoogleが、テキストプロンプトや画像から非常にリアルな動画を生成するAIモデル「Lumiere」を発表していた。

CNET Japanの記事を毎朝メールでまとめ読み(無料)

-PR-企画特集

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]