人工知能(AI)は今、われわれが意識するとしないとにかかわらず、至るところに存在する。オンラインで応答するチャットボットでも、音楽や動画ストリーミングのプレイリストでも、その背後で動いているし、欲しいと思っているものをなぜだか正確に知っているパーソナライズド広告も、AIの力だ。それが今では、さらに表に出るようになっている。例えば、「Meta AI」は「Facebook」「Messenger」「WhatsApp」などのアプリで使われているし、Googleの「Gemini」は、同社のプラットフォーム全体のバックグラウンドで稼働している。展開されつつある「Apple Intelligence」もその仲間だ。
AIの歴史は古く、「人工知能」という言葉が初めて語られたのは、1956年のダートマス会議にまで遡る。その研究史上のマイルストーンとして登場したのが「ELIZA」だ。原理的には初のチャットボットであり、1964年頃にマサチューセッツ工科大学(MIT)のコンピューター科学者、故Joseph Weizenbaum氏によって開発された。その後2004年には、Googleのオートコンプリート機能が初めて登場している。
そして、2022年に「ChatGPT」が一躍名声を馳せる。それ以来、生成AIの開発と製品発表は急加速し、「Google Bard」(現在のGemini)、「Microsoft Copilot」、IBMの「watsonx.ai」、Metaのオープンソースモデル「Llama」などが相次いで登場している。
そこで、生成AIとは何か、「通常の」人工知能とはどう違うのか、生成AIはうたい文句どおりなのかどうかを詳しく解説することにしよう。
生成AIとは、根本的に、学習したパターンとデータに基づいて新しいコンテンツを生成するよう設計された人工知能システムのことである。数値を分析したり傾向を予測したりするだけではなく、生成AIは文章、画像、音楽、動画、プログラムコードといった創造的な出力を生成する。
現在の市場で特に知られている生成AIツールとしては、ChatGPTのほかに「DALL・E」「Midjourney」「Adobe Firefly」「Claude」「Stable Diffusion」などがある。
その機能で特に先行しているChatGPTは、簡単なプロンプトをいくつか指定するだけで、人間のような会話や文章を作り出すことができる。DALL・EとMidjourneyは、短い説明から精細なアートを生成する。Adobe Fireflyは、画像の編集とデザインに特化している。
ただし、AIがすべて生成系というわけではない。生成AIが新しいコンテンツの生成に特化しているのに対して、従来のAIはデータの分析や傾向の予測を得意とする。画像認識や入力予測などの技術もその仲間だ。科学、医療診断、天気予報、不正検出、財務分析での予測とレポート作成など、それらの分野の新しいソリューションにも利用されている。チェスや囲碁の世界チャンピオンを打ち負かしたAIは、生成AIではなかった。
こうした従来のAIは、生成AIほど華々しくはないかもしれないが、われわれが日常的に利用しているテクノロジーの大きな一端を担っている。
生成AIが披露する魔法のような動作の裏にあるのは、大規模言語モデル(LLM)と高度な機械学習技術だ。それらのシステムに大量のデータ、例えば図書館規模の書籍、膨大な数の画像、何十年分も記録された音楽、インターネットから抽出したデータなどを学習させる。
AIの開発者は、テクノロジー業界の大手でもスタートアップでも、AIの性能が学習したデータに左右されるということを十分に理解している。学習するデータの品質が悪いと、AIはバイアスのかかった結果を出力することもある。Googleのように、この分野の超大手でさえ、まだ克服できていない問題だ。
AIは、学習するデータの中からパターン、関係性、構造を学ぶ。そのうえで、プロンプトを与えられると、学習した知識を応用して何か新しい内容を生成する。例えば、海についての詩を書くよう生成AIに指示した場合、過去に書かれた韻文をただデータベースから引っ張り出してくるわけではない。詩歌、海、言語構造について学習したことを利用して、独自の作品を作り出すのである。
その動作は見事なものだが、完璧なわけではない。ときには結果が少しズレて感じられることもある。AIが指示を誤解した可能性もあるし、予測を超えて創造的になりすぎたのかもしれない。自信満々で全く虚偽の情報を示すこともあるので、ファクトチェックはユーザーの責任だ。こうした癖はハルシネーションと呼ばれており、生成AIの興味深い点でもあり、困った点でもある。
生成AIの機能は成長しつつある。今では、機械学習、自然言語処理、コンピュータービジョンなどの複数の技術を組み合わせて、何種類ものデータタイプを理解できるようになった。それがいわゆるマルチモーダルAIと呼ばれるもので、文章、画像、動画、音声などの組み合わせを1つのフレームワークに統合することができるため、今までよりも状況にふさわしく正確な応答が可能になっている。ChatGPTの「高度な音声モード」はその一例で、Googleの「Project Astra」も同様だ。
現在公開されている生成AIはかなりの数だが、いずれも独自の特性がある。それぞれが創造性を発揮している一方、バイアスとハルシネーション以外にもいろいろな問題を提起している。例えば、AIで生成されたコンテンツの著作権は誰にあるのか。あるいは、AI企業が言語モデルの学習に使う素材のうち、どれが許容され、どれが禁止されるのかといった問題だ。The New York TimesがOpenAIとMicrosoftを訴えた例もある。
そのほか、小さくない問題としてプライバシー、人間の職の喪失、AIとAIの生成するディープフェイクに関する説明責任などについても懸念があり、さらには環境に対する影響も憂慮されている。大規模なAIモデルの学習には大量の電力が使われ、それが膨大なカーボンフットプリントにつながるからだ。
ここ数年間で生成AIが急速に発展してきたため、AI全般のリスクに対しても不安が増している。責任感と倫理観のある開発を促すために、各国政府はAI規制を強化しており、その中では欧州連合(EU)の「AI規制法」が著名だ。
カスタマーサービスでチャットボットを利用したことがある、あるいは「Siri」や「Alexa」「Googleアシスタント」などのバーチャルアシスタントを使ったことがある人は多いだろう。バーチャルアシスタントは今や、生成AIのパワーツールになろうとしている。その潮流と、ChatGPTやClaudeなどのアプリによって、AIはわれわれの身近に浸透しつつある。
一方、McKinseyのAIに関する2024年版グローバルサーベイによると、回答者のうち65%が、自分の組織で生成AIをたびたび使用していると回答しており、これはわずか10カ月前に報告された数値のほぼ2倍だ。医療や金融などの業界は、生成AIを使って業務を合理化し、日常的なタスクを自動化しつつある。
生成AIはもはや、テクノロジー通やクリエイティブ系の人々だけのものではなくなっている。プロンプトを指定するコツをつかめば、日常的な各種のタスクで、大変な情報収集作業の多くを自分の代わりにこなしてくれる能力を秘めている。例えば、旅行を計画しているとしよう。検索結果のページをえんえんとスクロールする代わりに、旅程表を作成するようチャットボットに頼む。すると、あっという間に自分の好みに合った詳しい計画を示してくれる(これは理想的にうまくいった場合だ。提案された内容のファクトチェックは必ずしておこう)。マーケティングキャンペーンが必要になった小規模な事業所なら、デザインチームを雇わなくても、生成AIを使って目を引くビジュアルを作成でき、さらには広告コピーの提案も依頼できる。
テクノロジーの進歩がこれほどのブームを呼んだのは、インターネットの登場と、後の「iPhone」以来だろう。課題は残されているが、生成AIが革新的なことは間違いない。クリエイティビティーを身近なものにし、企業のワークフロー合理化を支援し、全く新しい発想法や問題解決の糸口にさえなりつつある。
だが、おそらく何よりも期待が高まるのは、その潜在能力だ。われわれはまだ、生成AIが持つ可能性の表面をなぞっているにすぎない。
実践 生成AIの教科書 ――実績豊富な活用事例とノウハウで学ぶ(価格をAmazonでチェック)
この記事は海外Ziff Davis発の記事を朝日インタラクティブが日本向けに編集したものです。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
地味ながら負荷の高い議事録作成作業に衝撃
使って納得「自動議事録作成マシン」の実力
「もったいない」という気持ちを原動力に
地場企業とともに拓く食の未来