> >

AIを訓練する現実世界のデータが足りない問題、その解決策「合成データ」とは--NVIDIAが買収か

Jon Reed （CNET News）翻訳校正：編集部2025年03月21日 17時42分

  半導体大手のNVIDIAが、合成データを扱うGretelを約3億2000万ドルを上回る額で買収したと米Wiredが報じた。NVIDIAの広報はこの件についてコメントを拒否した。

David Paul Morris/Bloomberg via Getty Images
※クリックすると拡大画像が見られます

　生成AIの開発企業は、モデルをトレーニングして性能を上げるために十分なデータを集めるのが難しくなってきており、データを「創り出す」ニーズが高まっている。

　報道によると、Gretelの従業員はNvidiaに合流する形になるとのこと。合成（シミュレーション）データを提供するGretelは、NvidiaのAI開発者向けサービスをさらに充実させる役割を担うようだ。 

合成データが重要な理由

 　OpenAIのChatGPTのような大規模言語モデルをはじめ、生成AIには膨大なデータが必要だ。ただし、現実世界のデータはノイズが多かったり、そもそも量が限られていたりといった問題がある。

 　AI企業は無料で使えるデータを使い尽くしつつあり、著作権のあるコンテンツを勝手に使うことが許されるのかどうか、という問題にも直面している。俳優や脚本家、監督など数百人が、トランプ政権の大統領府科学技術政策局に公開書簡を出して、著作権データの扱いに関する懸念を表明したこともある。

　現在、OpenAIはAIモデルの訓練用に著作権がある素材をより幅広く使えるようにしてほしいと政府に求めており、そうでないと中国に遅れをとる可能性があると主張している。

　そこで登場するのが合成データだ。これは、AI学習用に現実世界に似せたデータを人工的に生成することで、データ不足に対応するものだ。

　さらに、プライバシーの懸念にも対処できる。たとえば医療データのように個人が特定される恐れのある情報でも、Gretelが提供する合成データの仕組みによって、プライバシー情報を排除して統計的に意味のあるデータを人工的に生み出せる。つまり、実データをさらさずにAIの学習に活用できるわけだ。

　一方、合成データの利用には問題点も指摘されている。実在しない情報ばかりに頼りすぎると、モデルが誤った出力を増やす可能性が高まる。極端なケースでは“モデルの崩壊”が起こり、あまりにも不正確になりすぎて実用に耐えなくなるリスクもあると言われている。

この記事は海外Ziff Davis発の記事を朝日インタラクティブが日本向けに編集したものです。

CNET Japanの記事を毎朝メールでまとめ読み（無料）