動画生成AIと、AIが作り出すアバターは急速な進化を遂げつつある。英国の動画生成AIスタートアップであるSynthesiaは、この新技術を次のステージに引き上げようとしている。
Synthesiaは4月、人間のようにさまざまな感情を表現できるアバター「Expressive Avatars」を発表した。これは同社が「デジタル俳優」と呼ぶ技術の最新版だ。表情が強化され、リップシンクもより正確になっている上に、口調も人間のようにリアルで、多くの音声読み上げAIのロボット的な口調よりも優れている。
同社は発表の中で、「この技術はデジタルアバターに洗練とリアリズムをもたらし、バーチャルとリアルの境界線を曖昧にするものだ」と述べている。
テキストから動画を生成するSynthesiaのプラットフォームには、160以上のあらかじめ作成されたAIアバターが用意されており、これらのアバターは、有料で契約した人間の俳優の動画に基づいて、本人の同意を得て作成されている。このプラットフォームでは、利用者のチームメンバーが動画制作のすべての過程で協力して取り組むことができ、130以上の言語が使用できる。
Synthesiaは、動画制作のプロセス全体を同社のソフトウェアで置き換えることを目指している。ただし、最高経営責任者(CEO)であるVictor Riparbelli氏によれば、ターゲットはハリウッドではなく、企業やB2Bのコンテンツだという。同社は、簡単に制作できて、説得力があり、人間が演じているように見える動画の需要はそこにあると考えている。
Expressive Avatarsには、SynthesiaのAIモデルである「EXPRESS-1」が使用されている。製品のテキスト処理の部分にはオープンソースの大規模言語モデルが使われているが、EXPRESS-1のトレーニングには社内で制作されたコンテンツだけを使用しており、合成データやウェブからスクレイピングされたデータは一切使われていない。
Riparbelli氏はデモの中で、EXPRESS-1のモデルを構築するために、数千人の俳優を雇ってロンドンとニューヨークのスタジオで動画を撮影したと説明している。その理由の一端は、既存のデータセットに内包されているバイアスを取り込んでしまうことを避けることにあったという。
「この技術に関しては、合成コンテンツを利用するのは現実的な戦略ではなかった。なぜなら、それでは最終的に合成コンテンツを再現することになってしまい、それはこの技術で目指していることではないからだ」とRiparbelli氏は述べている。「この技術は、人間の話し方を再現することを目指している」
Riparbelli氏は、EXPRESS-1のモデルには、この比較的小規模なデータセットでも十分だったとも語った。これは、「RunwayML」やOpenAIの「Sora」と比較すると、このモデルが「範囲が絞られており具体的」だからだ。
デモでは、3つのプロンプトを表現するアバターを見ることができる。その3つとは、「I am happy(私は幸せだ)」「I am upset(私は戸惑っている)」「I am frustrated(私はいら立っている)」というものだ。新しいアバターは、Synthesiaのこれまでの技術よりもリアルで自然なリズムで話すことができる。
Synthesiaは発表の中で、「Expressive Avatarsは人間の話し方を模倣できるだけでなく、文脈も理解できる」と述べている。「会話が喜ばしいものであったり、痛ましいものであったりすれば、アバターはそれに合わせて表現の仕方を変え、共感や理解を示すことができる。これは、これまでは人間の俳優にしかできなかったことだ」
本物の人間との見分けがつかないわけではないものの、近年になってディープフェイクの悪用が増えていることを考えれば、これらのアバターが人間に近づいていることは憂慮すべきことだ。
「私たちは、Expressive Avatarsは強力な新技術であり、世界中の何十億人もの人々が投票権を行使することになる民主主義にとって重要な年に、この技術がリリースされたことの意味を理解している」と同社は述べている。「私たちはこのプラットフォームの悪用を防ぐためにさまざまな措置を取っている。これには、利用ポリシーを変更して作成できるコンテンツの種類を制限することや、悪意のあるアクターの早期発見への投資、AIの安全性に取り組むチームの増設、C2PAなどのコンテンツ認証技術の実験などが含まれる」
Synthesiaは今回の発表前にもさまざまな対策を講じている。同社のウェブサイトによれば、ユーザーはカスタムアバターを作成できるが、それにはモデル本人の明確な同意が必要で、「KYCに似た念入りな手続き」によって確認を取るという(編集部注:KYCはKnow Your Customerの略で本人確認の意)。それに加えて、モデルとなった人物はいつでもそのプロセスから離脱することができ(あらかじめ登録されている俳優にも同じ条件が提示されているという)、その場合にはデータや肖像は削除される。また同社は、ユーザーが有名人や政治家のアバターを作成することは、いかなる状況においても許可していない。
さらにRiparbelli氏は、ある動画の中で、Synthesiaのツールを使用してニュースコンテンツを作成できるのは、企業向けプランに登録している、審査を経た報道機関だけだと説明している。ただし、Synthesiaが報道機関を見分けるために用いている基準や、同社がこのプラットフォームで作成されたコンテンツのファクトチェックを行っているかどうかは明らかにされていない。
Synthesiaはコンテンツの来歴の確認や特定のメディアの出所を特定するツールの開発に取り組む企業や組織の連合体であるContent Authenticity Initiativeに参加している。
Synthesiaは、企業がExpressive Avatarsを使用することで、単なる情報提供に止まらず、共感が必要な動画を制作できるようになると考えている。例えば、ヘルスケアのようなデリケートな話題を扱ったコンテンツや、人間の親しみやすさや辛抱強さを持った顧客サポート用コンテンツなどだ。
Riparbelli氏はデモの中で、「これは、こうしたモデルで構築された最初のリリース、最初の製品にすぎない」と述べている。「私たちは、次の6~9カ月の間に、大きく能力を拡大していくつもりだ」
この記事は海外Red Ventures発の記事を朝日インタラクティブが日本向けに編集したものです。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス