Googleは、人工知能(AI)を使ってテキストから画像を生成する新たな拡散モデルを開発している。類似するAIモデルより優れたものだとしている。
このモデル「Imagen」は、例えば「カウボーイハットと赤いシャツを身に着け、ビーチでギターを弾いているペルシア猫の写真」といったテキストが入力されると、その画像を出力する。写真のようにリアルな画像も、芸術作品のように加工された画像も生成できるようだ。
同じようにテキストから画像を生成するAIとして、「DALL・E」「VQGAN+CLIP」「Latent Diffusion Models」などがある。そうした他のAIモデルとImagenが生成する画像との比較について、Googleは、正確さと画像の忠実度で自社のモデルが優れていることが明らかになったとしている。
Imagenのウェブサイトで、指示するテキストとこのAIで作成された結果画像の例がいくつか紹介されている。「寿司でできた家に住むかわいいコーギー」のような例もある。これらは、生成された中で特に優れた結果であるかもしれない。Googleは米CNETの取材にコメントしなかった。
テキストから画像を生成するモデルは、機械学習システムが持つポテンシャルを示している。Imagenがあれば、抽象的な画像を作成するために、「Photoshop」のような専門的なソフトウェアの使い方を学ぶ必要がなくなるかもしれない。Googleは5月の開発者向け年次会議「Google I/O」で、AIシステムは「アンビエントコンピューティング」という未来像に近づく上で役立てられると述べていた。アンビエントコンピューティングは、いずれ人々が特別なシステムやコードの知識を必要とせず、直感的にコンピューターを利用できるようになるといったアイデアだ。
ただし、テキストから画像を生成するAIの影響力はGoogleも認識している。同社は現時点で、Imagenを一般向けにリリースしないことにした。Imagenはインターネットから情報を集め、学習して画像を生成する。インターネットには、ステレオタイプと偏見があふれている場合もあり、Imagenが生成する画像に反映されてしまう懸念もある。またGoogleは、Imagenが悪意ある何者かがネガティブな使い方をするリスクも懸念している。
Googleが公開したホワイトペーパーによると、「ジェネレーティブな手法は、ハラスメントや偽情報の拡散などの悪質な目的で利用される恐れがあり、社会的、文化的排除やバイアスに関する多くの懸念をもたらす可能性がある」という。
この記事は海外Red Ventures発の記事を朝日インタラクティブが日本向けに編集したものです。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス