データラベリングとは?
読み方: データラベリング
30秒まとめ
AIモデルの教師あり学習に必要なラベル(正解データ)をデータに付与する作業。
データラベリングの意味・定義
データラベリング(Data Labeling)は、AIモデルの教師あり学習に必要な正解ラベル(アノテーション)をデータに付与する作業です。画像に「猫」「犬」などのタグを付けたり、テキストの感情を「ポジティブ」「ネガティブ」と分類したり、音声をテキストに書き起こしたりすることが該当します。モデルの性能はラベルの質に直結するため、「ゴミを入れればゴミが出る(GIGO)」の原則が適用されます。 ラベリングには大量の人手が必要で、コストと時間がかかる課題があります。近年はAIを活用した半自動ラベリング(Active Learning)、LLMによるラベル生成(AI-assisted Labeling)、クラウドソーシングによる分散ラベリング(Amazon Mechanical Turk等)などの効率化手法が普及しています。RLHF(人間のフィードバックによる強化学習)もラベリングの一形態であり、ChatGPTの品質向上に大きく貢献しました。