作家のSarah Silvermanさんが、 同業者のRichard KadfreyさんとChristopher Goldenさんとともに、著作権を侵害されたとしてMetaとOpenAIをそれぞれ個別に提訴した。
両社をそれぞれ提訴する2件の訴状の中で作家らは、 OpenAIの「ChatGPT」で使われる大規模言語モデル(LLM)とMetaの「LLaMa」用のトレーニング素材として、自分たちの著作権で保護された書籍を使用することに同意したことは決してないと主張している。
LLMは、人工知能(AI)アルゴリズムの一種で、インターネット上の書籍やテキストからの膨大な量の情報を使用したトレーニングによって、人間のようなテキストを生成してユーザーとチャットを交わせるようになるまで、言語パターン、文法、文脈を学習させたものである。
訴状によると、それらのモデルは「数千冊もの書籍の著者やその他多数の人々の著作物を、同意、報酬、出典表記なく再編集している」という。
ChatGPTが2022年11月に広く公開され、生成AIが爆発的人気を集め、創造性と著作権の権利処理に対するAIの影響が疑問視されるようになって以来、著作権侵害は、AIに懐疑的な人が抱く多くの懸念のうちの1つとなっている。
今回の訴状では、これらのLLMが、「シャドーライブラリー」で入手したものなど、違法に取得した素材でトレーニングされていると主張されている。OpenAIに対する訴状には、以下のように記されている。
「OpenAIの『Books2』データセットは、約29万4000タイトルが含まれると推定できる。それだけ多くの資料をこれまでに提供してきた『インターネットベースの書籍データベース』は、『Library Genesis』(LibGen)、『Z-Library』(B-ok)、『Sci-Hub』、『Bibliotik』といった、悪名高い『シャドーライブラリー』ウェブサイトしかない。これらのウェブサイトに集められている書籍は、トレントシステムを経由して大量に入手できるようにもなっている」
Metaに対する訴状にも似たような主張がなされており、書籍のトレーニングデータが収集された情報源へのリンクが記載されている。訴状ではそれらのリンクを、次の2つに分類している。1つは、著作権が切れた書籍のオンラインアーカイブである「Project Gutenberg」で、もう1つは、「ThePileのBooks3セクション」だ。後者は、人気の高いAIプロジェクトホストサイト「Hugging Face」で利用可能なデータセットで、前出のBibliotikのすべてを含んでいるとみられる。
この記事は海外Red Ventures発の記事を朝日インタラクティブが日本向けに編集したものです。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」