合成データ生成とは?
読み方: ゴウセイデータセイセイ
30秒まとめ
AIを使って本物に似た人工データを生成する技術。プライバシー保護やデータ不足の解決に活用。
合成データ生成の意味・定義
合成データ生成(Synthetic Data Generation)は、実データの統計的特性を保持しつつ、AIモデルを使って人工的にデータを生成する技術です。実データの収集が困難、コストが高い、プライバシー上の制約がある場合の代替手段として注目されています。 主な活用場面は、(1)プライバシー保護:医療データや個人情報を含むデータの代替として合成データを使用し、GDPR等の規制に対応、(2)データ不足の解消:学習データが少ない場合に合成データで補完、(3)データバランスの改善:少数クラスの合成データを生成してデータの偏りを補正、(4)テスト環境の構築:本番データを使わずにシステムテストを実施、などです。生成手法としてはGAN、VAE(変分オートエンコーダ)、拡散モデル、LLMによるテキスト生成などがあります。Gartnerの予測では、2030年までにAI学習に使用されるデータの大半が合成データになるとされています。