AI開発企業は、大規模言語モデル(LLM)の学習のためにウェブ全体にアクセスすることが、これまでより難しくなるかもしれない。ネットインフラを提供するCloudflareが今週、AIのデータクローラーをデフォルトでブロックすると発表したからだ。
これは、コンテンツ制作者と、コンテンツを使って生成AIモデルを訓練するAI開発企業の間で続く争いの新たな展開だ。作家やコンテンツクリエイターは、大手AI企業に補償を求める訴訟を起こしており、著作権で保護されたコンテンツを無断で利用されたと主張している(米CNETを保有するZiff Davisも4月にOpenAIを提訴し、同社のAIシステムの訓練と運用においてZiff Davisの著作権が侵害されたと主張している)。
コンテンツ提供者が過去にモデルの訓練に使われた情報に対する補償を求める一方で、Cloudflareの動きは将来のモデル訓練に対する新たな防御策となるものだ。
そして、単にクローラーをブロックするだけではない。Cloudflareは、AI企業がサイトをクロールしてスクレイプする際に対価を支払うマーケットプレイスを作ろうとしている。情報提供者は報酬を得て、AI開発者は許可を得るというわけだ。
Cloudflareの最高経営責任者(CEO)であるMatthew Prince氏は発表の中で、「そのコンテンツこそがAIエンジンを動かす燃料であり、したがってコンテンツクリエイターが正当に報酬を受け取るのは当然のことです」と述べた。
クローラー(ウェブサイトを訪れ情報をコピーするボット)は、インターネットを支える重要な要素だ。Googleなどの検索エンジンはこれによって各サイトの内容を把握し、最新の情報を提供できる。
一方、AIクローラーはウェブサイトに明確な課題をもたらす。まず、小規模なサイトには処理しきれないほどのトラフィックを発生させることがある。そしてスクレイピングの見返りはほとんどない。Googleが検索結果のためにサイトをクロールすれば、そのサイトは検索結果に表示されてトラフィックを得られる可能性が高い。しかし学習用データとしてクロールされても追加のトラフィックは期待できず、ユーザーがサイトを訪れずAIモデルだけに頼るようになれば、むしろ減少するかもしれない。
このため、PinterestやReddit、複数の大手パブリッシャーの幹部はCloudflareの発表を歓迎する声明を出した。
RedditのCEOであるSteve Huffman氏は、「クリエイター、プラットフォーム、ウェブユーザー、クローラーから成るエコシステム全体は、クロールがより透明で管理されたものになれば、より良いものになる。Cloudflareの取り組みは全員にとって正しい方向への一歩だ」と述べた。
Cloudflareの発表について尋ねられたOpenAIは、「ChatGPT」モデルは検索エンジンと同様にユーザーをウェブ上のコンテンツへと結びつけることを目的としており、チャット機能に検索を統合していると説明した。また同社は、Cloudflareが提案するものとは別に、robots.txtとして知られる仕組みを通じてパブリッシャーがAIクローラーの振る舞いを指定できるようにしており、すでに機能しているため、Cloudflareの変更は不要だと述べた。
AIモデルは訓練に大量のデータを必要とする。そうした訓練により、質問に詳しく答えたり、幅広い情報をそれなりに(完璧ではないが)提供したりできる。膨大な情報をインプットされ、その訓練データに基づいて単語や概念のつながりを学んでいるのだ。
問題は、開発者がそのデータをどのように入手したかだ。現在、コンテンツクリエイターとAI企業の間で数十件の訴訟が起こっている。先週、主要な判決が2つ下されたばかりだ。
1つの裁判では、Anthropicが著作権で保護された書籍をAI「Claude」の訓練に使用したことは、フェアユース(fair use)という概念により合法であると判断された。一方、判事は同社が書籍の恒久的なライブラリーを作成した行為は合法ではないとして、海賊行為の疑いについて新たな審理を命じた。
もう1つの裁判では、Metaと13人の著者との争いで判事がMetaの主張を支持した。しかし、この判決は将来のMetaや他のAI企業への訴訟についても同様というわけではなく、「原告らが誤った主張を行い、正しい主張を裏付ける記録を示さなかった」だけだと述べた。
クローラーのサイト訪問に対して課金するという考え自体は新しいものではない。Tollbitなどの企業は、ウェブサイト運営者がAI企業に対してクロール料金を請求できるサービスを提供している。
TollbitでAI制御、プライバシー、メディア製品を統括するWill Allen氏は、この技術を取り巻く環境はまだ発展途上だと語る。「コンテンツのマーケットプレイスが形成されるにはまだ早く、われわれは試行を始めたばかりだ」と同氏は米CNETに語り、「多様なモデルが登場するのを楽しみにしている」とした。
この記事は海外Ziff Davis発の記事を朝日インタラクティブが日本向けに編集したものです。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
Copilot + PCならではのAI機能にくわえ
HP独自のAI機能がPCに変革をもたらす
働くあなたの心身コンディションを見守る
最新スマートウオッチが整える日常へ