> >

マイクロソフト、顔写真と音声からリアルな動画を作るAI--ラップするモナ・リザも

Ian Sherr （CNET News）翻訳校正：編集部2024年04月23日 12時42分

　Microsoftは、1枚の顔写真と短い音声クリップから本物そっくりの動画を生成する新たな人工知能（AI）技術「VASA-1」を発表した。同社は、俳優アン・ハサウェイさんが2011年に披露したパパラッチ批判のラップを、レオナルド・ダ・ヴィンチの有名な絵画「モナ・リザ」がまねるリアルな動画など、VASA-1で生成した複数の動画を紹介している。

提供：Screenshot by Gael Fashingbauer Cooper/CNET

　Microsoftの動画は、ハイテク企業がAIツールによって実現している急速な進歩を示す最新の例だが、ラップを歌うモナ・リザは、間違いなく風変わりと不気味の境界線をまたいでいる。

Microsoft just dropped VASA-1.

This AI can make single image sing and talk from audio reference expressively. Similar to EMO from Alibaba

10 wild examples:

1. Mona Lisa rapping Paparazzi pic.twitter.com/LSGF3mMVnD
— Min Choi (@minchoi) April 18, 2024

　このMicrosoftの新技術の他にも、例えば同社と提携するスタートアップのOpenAIは、テキストから動画を生成するAIモデル「Sora」を開発している。Googleにも「Lumiere」と呼ばれる同様のツールがある。

ディープフェイクから現実へ

　Microsoftの技術は目新しいものではないように思えるかもしれない。研究者らは何年も前から、衝撃的なほどリアルな動画を作成する技術を披露しており、しばしばそれらの動画をディープフェイクと呼んでいる。特に印象的なディープフェイクには、マサチューセッツ工科大学（MIT）が2019年にAI技術を駆使して、リチャード・ニクソン元米大統領が実際には行ったことのないスピーチを行ったように見せたものがある。

　専門家らは、ディープフェイクが偽情報の拡散に利用されることへの懸念を強めている。

　こうした懸念は、アプリ開発者が同様の技術を提供するのをやめさせるには至っていない。そうしたアプリは非常に人気があるため、サイバーセキュリティ研究者らは、人々がアップロードした写真が、所有者や被写体の同意なしに技術の向上のために使われる可能性があると警告している。

　Microsoftは、これらの技術が害よりも益になることを期待している。

　「悪用される可能性は認めるが、われわれの技術が持つ実質的なプラスの可能性を認識することが不可欠だ」と、同社はVASA-1に関する発表の中で述べ、「教育の公平性を高め、コミュニケーションに困難を抱える人々のアクセシビリティーを向上させ、必要とする人々に付き添いや治療支援を提供するなど、多くの利点が、われわれの研究やその他の関連する探求の重要性を示している」とした。

　Microsoftは、「人間の幸福を促進することを目標に、責任を持ってAIを開発することに専念している」とも述べた。

この記事は海外Red Ventures発の記事を朝日インタラクティブが日本向けに編集したものです。

CNET Japanの記事を毎朝メールでまとめ読み（無料）