学習データ(トレーニングデータ)とは?
読み方: がくしゅうデータ
30秒まとめ
AIモデルの学習に使用されるデータセット。モデルの性能と品質を根本的に決定する。
学習データ(トレーニングデータ)の意味・定義
学習データ(Training Data、トレーニングデータ)は、AIモデルの学習(訓練)に使用されるデータセットです。LLMの場合、インターネット上のWebページ、書籍、論文、コードなど数兆トークン規模のテキストデータが使用されます。モデルの性能は学習データの質と量に大きく依存し、バイアスのあるデータで学習すると出力にもバイアスが反映されます。近年は、高品質なデータのキュレーション、合成データ(Synthetic Data)の活用、データの著作権問題が重要な課題となっています。また、Common Crawl、The Pile、RedPajama、FineWebなどの公開データセットがオープンソースモデルの学習に広く利用されています。