学習データ(トレーニングデータ)とは?

読み方: がくしゅうデータ

30秒まとめ

AIモデルの学習に使用されるデータセット。モデルの性能と品質を根本的に決定する。

学習データ(トレーニングデータ)の意味・定義

学習データ(Training Data、トレーニングデータ)は、AIモデルの学習(訓練)に使用されるデータセットです。LLMの場合、インターネット上のWebページ、書籍、論文、コードなど数兆トークン規模のテキストデータが使用されます。モデルの性能は学習データの質と量に大きく依存し、バイアスのあるデータで学習すると出力にもバイアスが反映されます。近年は、高品質なデータのキュレーション、合成データ(Synthetic Data)の活用、データの著作権問題が重要な課題となっています。また、Common Crawl、The Pile、RedPajama、FineWebなどの公開データセットがオープンソースモデルの学習に広く利用されています。

関連するAIツール

関連する用語

運営者が開発したAIマーケティングツール