半導体大手のNVIDIAが、合成データを扱うGretelを約3億2000万ドルを上回る額で買収したと米Wiredが報じた。NVIDIAの広報はこの件についてコメントを拒否した。
生成AIの開発企業は、モデルをトレーニングして性能を上げるために十分なデータを集めるのが難しくなってきており、データを「創り出す」ニーズが高まっている。
報道によると、Gretelの従業員はNvidiaに合流する形になるとのこと。合成(シミュレーション)データを提供するGretelは、NvidiaのAI開発者向けサービスをさらに充実させる役割を担うようだ。
OpenAIのChatGPTのような大規模言語モデルをはじめ、生成AIには膨大なデータが必要だ。ただし、現実世界のデータはノイズが多かったり、そもそも量が限られていたりといった問題がある。
AI企業は無料で使えるデータを使い尽くしつつあり、著作権のあるコンテンツを勝手に使うことが許されるのかどうか、という問題にも直面している。俳優や脚本家、監督など数百人が、トランプ政権の大統領府科学技術政策局に公開書簡を出して、著作権データの扱いに関する懸念を表明したこともある。
現在、OpenAIはAIモデルの訓練用に著作権がある素材をより幅広く使えるようにしてほしいと政府に求めており、そうでないと中国に遅れをとる可能性があると主張している。
そこで登場するのが合成データだ。これは、AI学習用に現実世界に似せたデータを人工的に生成することで、データ不足に対応するものだ。
さらに、プライバシーの懸念にも対処できる。たとえば医療データのように個人が特定される恐れのある情報でも、Gretelが提供する合成データの仕組みによって、プライバシー情報を排除して統計的に意味のあるデータを人工的に生み出せる。つまり、実データをさらさずにAIの学習に活用できるわけだ。
一方、合成データの利用には問題点も指摘されている。実在しない情報ばかりに頼りすぎると、モデルが誤った出力を増やす可能性が高まる。極端なケースでは“モデルの崩壊”が起こり、あまりにも不正確になりすぎて実用に耐えなくなるリスクもあると言われている。
この記事は海外Ziff Davis発の記事を朝日インタラクティブが日本向けに編集したものです。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
日本のインターステラテクノロジズが挑む
「世界初」の衛星通信ビジネス
地味ながら負荷の高い議事録作成作業に衝撃
使って納得「自動議事録作成マシン」の実力
NTT Comのオープンイノベーション
「ExTorch」5年間の軌跡
先端分野に挑み続けるセックが語る
チャレンジする企業風土と人材のつくり方
すべての業務を革新する
NPUを搭載したレノボAIパソコンの実力