人工知能(AI)分野における2023年の出来事のうち、将来重大な影響を及ぼす可能性のあるものの1つは、「ChatGPT」を開発したOpenAIが3月に最新の大規模言語モデル(LLM)「GPT-4」を発表した際、このプログラムに関する詳細な技術情報を非公開にするという決定を下したことだ。
同社が突如として秘密主義に転換したことが、テクノロジー業界にとって大きな倫理的問題になりつつある。というのも、OpenAIとそのパートナーであるMicrosoft以外の誰も、両社のコンピューティングクラウド内のブラックボックスで何が起こっているのかを知り得ないからだ。
オックスフォード大学のEmanuele La Malfa氏とアラン・チューリング研究所およびリーズ大学の共同研究者らは9月、こうした問題をテーマとした論文をarXiv.org(査読なしのオープンアクセスジャーナル)に発表した。
この論文で、La Malfa氏らは「サービスとしての言語モデル」(Language-Models-as-a-Service:LMaaS)という現象を考察し、ユーザーインターフェースやAPIを介してオンラインでホストされているLLMについて言及した。このアプローチの主要な例が、OpenAIのChatGPTとGPT-4だ。
「商業的な圧力によって大規模かつ高性能なLM(言語モデル)が開発され、顧客向けサービスとして独占的にアクセスされる状態になった。これらのLMはユーザーのテキスト入力に対して文字列やトークンを返す。しかし、そのアーキテクチャー、実装、学習手順、学習データに関する情報は公開されておらず、内部状態を検査または変更することもできない」(論文)
「アクセス制限はLMaaSに固有のもので、そのブラックボックス的な性質と相まって、一般の人々や研究コミュニティーがLMaaSをより良く理解し、信頼し、コントロールする必要性と相容れない」「このことは、この分野の核心部分において重大な問題を引き起こす。つまり、最も強力でリスクの高いモデルは、最も分析が難しいモデルでもあるということだ」
この問題は、OpenAIの競合他社、特にクローズドソースのコードに対抗してオープンソースのコードを利用している企業を含め、業界内で広く指摘されてきたものだ。例えば、画像生成AI「Stable Diffusion」などのツールを開発している生成AIの新興企業、Stability AIの最高経営責任者(CEO)Emad Mostaque氏は、どの企業もGPT-4のようなクローズドソースのプログラムを信頼できないと述べている。
同氏は4月に開催された報道陣と経営幹部らによる小規模な会合で、次のように述べた。「非公開データにはオープンモデルが不可欠になるだろう」「その中身をすべて把握しておく必要がある。これらのモデルは非常に強力だ」
La Malfa氏と同氏が率いるチームは、さまざまな言語モデルの資料を調査し、密室での開発によって、プログラムのアクセシビリティーと反復可能性、比較可能性、信頼性という4つの重要な観点に立った監査がいかに妨げられるのかを明確にした。
著者らは、これらはAI倫理において新たに出てきた懸念だとし、「これらの問題はLMaaSというパラダイムに特有のものであり、言語モデルにかかわる既存の懸念とは異なっている」と記している。
アクセシビリティーはコードを非公開にするという話と関係があり、著者らによるとこれは大規模な研究開発(R&D)予算を有する大企業に偏重したかたちで利益をもたらすという。
著者らは「計算処理に使えるリソースが企業間で大きく異なり、ごく一部の企業に集中している状況において、技術に優れているが計算処理についてはそうではない企業はジレンマに直面する。自社のLMaaSをオープンソースにすれば、市場でのプレゼンスや、コミュニティーによるコードベースへの貢献というメリットがある一方、モデルを支えるコードを公開することで競争上の優位性は、より豊富なリソースを有する企業によってあっという間に相殺されるおそれがある」と記している。
これに加えて、LMaaSプログラムの均一化された価格は、ツールへのアクセス機会という点で、経済発展が遅れている地域の人々にとって不利に働く。研究者らは「こういった問題を低減するための手始めは、LMaaS、より一般的に言えばスタンドアローンで広く普及するディスラプティブ技術としての従量課金型AIサービスについて、その影響を分析することだ」と示唆している。
もう1つの問題は、LLMの訓練方法における格差の増大だ。著者らによると、商業LLMは顧客のプロンプトを再利用できるため、公開されているデータのみを用いるプログラムに大きく差をつけられるという。
著者らは、LMaaSの商用ライセンスによって、「企業がサービスを提供/維持/改善できるよう、その企業にプロンプトの使用権が与えられる」ため、訓練データについて万人が想定できる共通の基準が存在していないと記している。
著者らは言語モデル別に、ユーザーのオプトアウトが可能なのか、訓練目的で顧客プロンプトを収集しているか、言語モデルの能力向上に向けた「微調整」を加えているのかを一覧できる表も掲載している。
La Malfa氏と同氏のチームは、さまざまなリスクを詳細に説明した後、4つの分野に取り組むための「仮の議題」を提唱し、「研究者や政策立案者、一般大衆がLMaaSを信頼できるようにするためのソリューションを見いだすために、コミュニティーとして活動する必要がある」と促している。
この記事は海外Red Ventures発の記事を朝日インタラクティブが日本向けに編集したものです。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」