7月下旬から、テキストを入力することで完成度の高い画像を生成するAI「Midjourney」がSNSを中心に大きな話題となりました。さらに、現地時間の8月22日には、英国のAIスタートアップ企業のStability AIが、同じく高クオリティの画像を生み出す画像生成AI「Stable Diffusion」及び、テキストを入力すると生成したい画像が出力されるウェブサービス「DreamStudio」を一般公開しました。
Stable Diffusionを使って作成した機械学習モデルは、ライセンスを明記することで営利、非営利を問わず使用が許可されています。また、同社は今後、音声、動画、3Dなどの領域にも対応していくことを発表しています。画像生成AIについてはほかにも、OpenAIが4月に「DALL・E2」の研究者、専門家向けの提供を開始し、7月に一般向けベータ版を公開しました。
また、Googleは5月に「Imagen」、6月に「Parti」を、マイクロソフトは7月に「NUWA-Infinity」を発表しています。さらに、Metaもテキストと自由形式のスケッチを組み合わせ、より精度の高い画像を作り出すことができるAI「Make-A-Scene」をテスト中と公表しています。ここで紹介した物は一般公開、利用されていないものも含んでいますが、画像生成AIは大きな盛り上がりを見せています。
なぜ今、こういったトレンドが起こっているかというと、2つの技術の大きな発展と開発があったからです。1つは、2014年に発表された、データから特徴を学習することで実在しないデータを生成したり、存在するデータの特徴に沿って変換できたりする生成モデル「GAN(Genera tive Adversarial Networks、敵対的生成ネットワーク)」の発展。もう1つは、OpenAIが2020年7月に開発した高性能な言語モデル「GPT-3」です。これらの技術により、テキストで命令をするとそれに適した精度の高い画像を生成するAIが登場しているのです。
AIで生成された画像は、英国の国際政治、経済週刊誌「エコノミスト」 6月号の表紙や、小説の挿絵、漫画、ゲーム、楽曲のジャケットやミュージックビデオの創作などのエンターテインメント領域、生成した絵柄を布地にプリントしてアパレル小物を製造、販売するなど、すでにさまざまな場面で活用されています。
AIにマンガを描かせてみるテスト(1/n)#Midjourney #マンガが読めるハッシュタグ #ツイッタSF #サイバーパンク桃太郎 pic.twitter.com/ctA9BvpU9l
— Rootport (@rootport) August 10, 2022
3本限定 道頓堀の夜景柄京袋帯 https://t.co/D9bP7OSDWU 品切れになっても再生産はおこないません。が、同じキーワードで制作した別の柄は出るかもしれません。 #ゴフクヤサン #midjourny pic.twitter.com/EwMMGogqPM
— (有)ゴフクヤサン・ドットコム (@gofukuyasan) September 16, 2022
ガラパゴスでも、2016年頃からDeep Learningによる画像認識技術を活用したり、データをアノテーションするための画像認識AIを自作したりしてロゴデザインをAIが生成するサービスを展開していましたが、当時は生成技術が低く、商用化が難しい状況でした。しかし今、ようやくビジネスに画像処理技術を応用できるタイミングになりました。こういった画像生成AI技術は、クリエイティブ制作に携わる人々にパラダイムシフトをもたらすと言えるでしょう。
今後、画像生成AIはどのように発展していくでしょうか。Stable Diffusionはオープンソース化されており、商用利用にも制限を設けていないため、今も日々世界中のユーザーによってさまざまな拡張機能やプラグインが追加されていますが、今後は、例えば2次元の萌えキャラクターのみが生成できるツールなど、“ジャンル特化型の画像生成ツール”が複数ローンチされることも予想されます。
このようなツールは、AIが大量にクリエイティブを生成してくれるので、制作コストを下げることにつながり、これまで画像素材やイラストなどを有償で購入しデザイン、クリエイティブ制作を行ってきたエンタメ業界やメディア業界、広告業界など、あらゆる業界や企業で活用されていくことが想定されます。
一方で、これらのツールは高クオリティの画像を大量に生成してはくれますが、個々人が生成しSNS上にアップしている画像を見ても分かる通り、入力するテキスト次第でクオリティは大きく左右されます。今後、デザインやクリエイティブの作り手は、どういった文章を入力すれば求める画像が得られやすいかというテクニックである「プロンプトエンジニアリング」のスキルを高めていくことが求められるでしょう。
さらに、生成された画像を活用したデザイン、クリエイティブが世間で評価を得るためには、一定以上の質を担保する必要があります。そのためには判断基準が曖昧であるデザインやクリエイティブ評価の“定量化”が行われることと、一定の質を保っていると判定する「判定器」のようなツールが必要とされるようになるでしょう。大量に生成したクリエイティブを「判定器」にかけ、フィルタリングを行い、一定の質以上と判断されたものを活用することができるようになれば、クリエイティブ制作に関わる人々はより生産的なことに時間を使えるようになります。
例えば、マーケター向けにLP(ランディングページ)やバナー、動画などの広告クリエイティブデザインを提供するガラパゴスの「AIR Design」というサービスでは、マーケティングに効果のあるデザインを定量化し、制作したLPやバナーを約160項目で採点した上で顧客に提供しており、今後はその採点の自動化も行う予定です。
ほかにも広告デザイン領域では、1020万人のデータを元にAIがパッケージデザインの評価を予測する「パッケージデザインAI」や、脳情報をもとにした NeuroAIを用いて「ヒトがコンテンツに対しどのような印象を抱くか」を予測しクリエイティブの制作や検証を支援する「D-Planner」といったサービスも出てきています。
今後は、他の領域でもこういった「判定器」のようなツールが求められるようになっていくでしょう。そして、画像生成AIや「判定器」ツールなど、新しく出てきたツールを使いこなし、AIに任せられる部分は任せ、人は人にしかできないことに集中して取り組む企業や組織が大きく成長していくと考えます。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」