AppleやNVIDIAなど世界有数のテクノロジー企業が、クリエイターの許可なくYouTube動画の字幕を使ってAIシステムを訓練しているという。Proof Newsが調査を基に報じた。
この記事では、特定のYouTubeチャンネルがデータセットに含まれているかを調べるためのツールを紹介し、「4万8000以上のチャンネルから抜き出された17万3536本のYouTube動画の字幕が、Anthropic、NVIDIA、Apple、Salesforceなどシリコンバレーの大手企業によって使われた」としている。
Proof Newsによると、このデータセットは、非営利団体EleutherAIが作成したデータセット「The Pile」の一部だ。2020年の研究論文で、同団体はThe Pileに22のサブセットが含まれると説明している。
Apple、Anthropic、EleutherAIはコメントの依頼に即時回答しなかった。NVIDIAはコメントを拒否した。
Googleの広報担当者は米CNETへの電子メールの中で、4月のBloombergの記事に言及しながら、この件に関する以前の声明を堅持すると述べた。記事の中で、Google傘下のYouTubeで最高経営責任者(CEO)を務めるNeal Mohan氏は、OpenAIが実際にYouTubeの動画を使ってテキストから動画を生成するジェネレーターを訓練したかどうかは分からないが、もしそうであればYouTubeの利用規約違反になると述べた。同氏は、Google自体がそのような方法で動画を使用していたかどうかについては言及しなかった。
Apple、Google、Microsoft、Meta、IBMといったテクノロジーの巨人たちがAIを追い求める中、この技術を進化させるにはAIモデルに膨大な量のデータを供給する必要がある。OpenAIを含むこの分野のリーダーたちは、AIシステムを訓練するためのデータセットを見つけるのがますます難しくなっていることを認めている。そのため、「ChatGPT」の開発元であるOpenAIは、News CorpやRedditなどのコンテンツ企業と交渉し、AIシステムに与えるコンテンツを取得している。
しかし、今回の報道によると、AppleやNVIDIAなどのテクノロジー企業は、動画や字幕のデータをマイニングすることを禁止しているYouTubeのようなプラットフォームで、コンテンツクリエイターの想定外の情報を含むデータセットを収集している可能性がある。
公益事業を行うAIスタートアップAnthropicの広報担当者はProof Newsに対し、同社のAIアシスタント「Claude」の訓練にThe Pileを使用していると述べ、「The PileにはYouTube字幕の非常に小さなサブセットが含まれている」と語った。
広報担当のJennifer Martinez氏は、「YouTubeの利用規約は、同プラットフォームの直接的な利用を対象としており、これはThe Pileデータセットの利用とは異なる。YouTubeの利用規約違反の可能性については、The Pileの作成者に問い合わせる必要がある」と述べた。
この報道が指摘しているように、Google自体もYouTubeコンテンツのマイニングについて追及されている。同社はThe New York Timesに対し、コンテンツ制作者との契約により、YouTubeコンテンツをAIの訓練に使用することは可能だと述べている。
この記事は海外Red Ventures発の記事を朝日インタラクティブが日本向けに編集したものです。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」