「ChatGPT」は、コードをデバックしたり、小論文を書いたり、ジョークを言ったりする高度な機能で、絶大な人気を集めている。そうした能力にもかかわらず、ChatGPTが支援できるのはこれまで、テキストに限られていた。その状況が間もなく変わることになる。
Microsoft Germanyの最高技術責任者(CTO)Andreas Braun氏は現地時間3月9日に「AI in Focus - Digital Kickoff」で、GPT-4が3月13日の週に公開予定で、それによってテキストから動画が生成できるようになる可能性を明らかにした。
同イベントを取材していたドイツの報道機関heise onlineによると、「GPT-4を来週公開する予定だ。GPT-4には、動画などまったく異なる可能性を提供する、マルチモーダルモデルが搭載されている」と、Braun氏は述べたという。
ChatGPTは、OpenAIが開発した、「Generative Pre-trained Transformer」(GPT)という言語モデルアーキテクチャに基づいている。具体的には「GPT-3」または「GPT-3.5」に基づいており、出力はテキストに限定されている。
GPT-4はマルチモーダルAIであるため、これまでのモデルとは異なり、テキスト以外のユースケースに対応できる。Microsoft Germanyのビジネス戦略担当ディレクターHolger Kenn氏は、このAIはテキストを動画、音楽、画像にも変換できると述べた。
テキストから動画の生成は、まったく新しいコンセプトというわけではなく、MetaやGoogleなどの大手IT企業が、既にそのようなモデルを保有している。ただし、これらは研究段階にあり、一般公開はされていない。
この記事は海外Red Ventures発の記事を朝日インタラクティブが日本向けに編集したものです。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」