週末に新しいAIモデルで世界経済をも揺るがす成功を収めたばかりの中国DeepSeekから、早くも新たなモデルが登場した。今回はAIによる画像生成に焦点を当てている。
同社は、米国のDALL-E 3やStable Diffusionに対抗すべく「Janus-Pro」という画像生成モデルを発表した。テキストのプロンプトから画像を生成できる同マルチモーダルモデルは、画像の品質や正確性などの面で競合サービスを上回るとされている。
このJanus-Proモデルは、先日発表されたR1モデルに続くものだ。R1モデルは、非常に高速かつ論理的な応答で話題になり、さらに米国製のモデルと比べて圧倒的に短時間・低コストでトレーニングされたことでも注目された。
加えて、最先端ではないNVIDIAのチップで動作しているとされ、中国が最先端の米国製テクノロジーに頼らずどのように競争を進めているのかが注目されている。また、R1モデルのアプリは最近、AppleのApp StoreでChatGPTを超えるダウンロード数を記録した。
こうした立て続けのリリースは、拡大を続けるAIの「軍拡競争」において、中国が足場を固めようとしていることを示している。一方で先週、ドナルド・トランプ大統領はOpenAIやソフトバンクGなどとの提携で最大78兆円をAIインフラに投資する構想を打ち出している。
ちょうどこの時期は、中国のテック企業に対する監視が強まったタイミングでもあり、TikTokのデータプライバシー問題をめぐる緊張もすでに高まっている。
Janus-Proは現在、AI開発者向けプラットフォーム「Hugging Face」からダウンロード可能だ。
ダウンロードページの紹介文でDeepSeekは次のように説明した。
「Janus-Proは、従来の統合モデルを上回り、タスク特化型モデルと同等かそれ以上の性能を発揮する。Janus-Proのシンプルさ、高い柔軟性、有効性は、次世代の統合型マルチモーダルモデルとして有望だ」
このモデルはパラメータ数が10億から70億に及び、問題解決能力において重要な役割を果たす。
同社はJanus-Proを「新しい自己回帰的フレームワーク」と位置づけており、画像の分析と生成のステップを分離しつつも、単一の統合システムで処理することで従来の課題を解決したという。
「この分離によって、ビジュアルエンコーダが『理解』と『生成』という二つの役割を同時に担うことで生じる衝突が緩和される。さらに、フレームワークの柔軟性も高まる」とDeepSeekは述べた。
この記事は海外Ziff Davis発の記事を朝日インタラクティブが日本向けに編集したものです。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
「もったいない」という気持ちを原動力に
地場企業とともに拓く食の未来
地味ながら負荷の高い議事録作成作業に衝撃
使って納得「自動議事録作成マシン」の実力