前回に引き続き、2022年を少し振り返ってみます。今回は「AIの拡散モデル」です。
2022年にデジタル技術で注目を集めたのは、AIによる画像生成です。8月に英国のAI開発企業Stability AIが一般公開した"Stable Diffusion"は、無料で使用できるだけでなくオープンソースで提供され、大きな話題となった。また米国のMidjourney社も"Midjourney"を提供、早くもサービスの洗練が進んでいます。
こうしたAI画像生成ブームの先鞭をつけたのが、米国のAI開発企業Open AIが開発・提供したDALL E2です。彼らの技術の基礎となっているのは、AIによる大規模言語モデル「GPT-3」で、詩や記事など、まるで人間が考えたような自然な文章を生成できるのが特徴といえます。
DALL E2はこの技術を使って、ユーザが「自然な言葉で」AIに描かせたいものを表現させ、それをAIに描かせます。正確にはその言葉の表現が指し示す意味に近い画像を探り当てたり混ぜたりすることでユーザのイメージに近づけていくということです。
こうしたお絵かきAI技術は2021年以前も存在していて、GAN(敵対的生成ネットワーク)という技術で高度な作画はすでにできるようになっており、ディープフェイク等も社会問題として提起されていたほどでした。
ただ、GANでのお絵かきは一般ユーザにはやや難易度が高かったのに比べ、今年出てきたお絵かきAIは「拡散モデル」という新しい手法を用いています。前述の言語モデルと組み合わせることで、ユーザ自身が自然言語によって絵を描けるという意味では画期的です。
こうなると、自由創作の世界が広がります。たとえば「これは私の感想ですとドヤ顔で言い切るひろゆき」とか「漫画村を出版業界に寄贈して著作権者と和解する星野ロミ」とか、現実には存在しないものを描いてもらうことも不可能ではないわけです。
一方で落とし穴もあります。結局は人間が正しさやおもしろさといった「絵の価値」を評価しているので、人間自身の認識にすべて依存してしまう、というところです。
たとえばナマケモノという動物の爪が何本か、鰻はどんな寝床で寝ているのか、とっさに正しく表現できる人はく少ないはずです。つまりどんなに自然に言語を使いこなしたつもりであっても、そもそも正しい知識を持っていないことが少なくない、ということです。
もし「ホンモノを知らない人が多数」で「おもしろさだけを優先して」AIに絵を描かせ続け、それが世界中に氾濫するようになった後、100年後の子ども達に象の絵を描かせると、鼻が2本、耳が4枚、みたいな絵をみんな描くようになるかもしれません。
AIの発展は来年以降も間違いなく続きます。しかしその度に問われるのは、実は人間の側だということを、肝に銘じておきたいですね。