合成データ(Synthetic Data)とは?
読み方: ゴウセイデータ
30秒まとめ
AIが人工的に生成した学習用データ。プライバシー保護やデータ不足の解消に活用。
合成データ(Synthetic Data)の意味・定義
合成データ(Synthetic Data)は、実際のデータを直接使用する代わりに、AIモデルやアルゴリズムを使って人工的に生成されたデータです。実データのパターンや統計的特性を維持しつつ、個人情報や機密情報を含まないデータを生成できるため、プライバシー保護とデータ活用を両立できます。医療、金融、自動運転など、実データの収集が困難またはプライバシー上の制約がある分野で広く活用されています。LLMの学習においても合成データの活用が急速に進んでおり、MicrosoftのPhi-3やGoogleのGemmaは合成データを活用した学習で高い性能を実現しました。また、AI学習用の実データが枯渇しつつあるという課題(データウォール問題)に対する解決策としても注目されています。Gartnerは2030年までにAI学習データの大部分が合成データになると予測しています。ただし、合成データの品質や偏りがモデルの性能に影響するため、適切な生成・管理手法の確立が重要です。