データアノテーションとは?
読み方: でーたあのてーしょん
30秒まとめ
機械学習の学習用に、生データへ正解ラベルを付与する作業。バウンディングボックス・セグメンテーション・NER・分類・RLHFなどの手法があります。
データアノテーションの意味・定義
データアノテーションとは、画像・テキスト・音声・動画などの生データに対し、機械学習が学習できる形で正解ラベルを付与する作業です。AIモデルの精度は学習データの質に大きく左右されるため、地味ながらAI開発の土台となる重要な工程です。\n\n代表的な手法には、画像内の対象を矩形で囲むバウンディングボックス、ピクセル単位で領域を塗り分けるセグメンテーション、文章中の固有表現を抽出するNER(固有表現抽出)、データをカテゴリに振り分ける分類などがあります。LLMの普及により、モデルの複数の回答を人間が比較・評価して選好データを作るRLHF(人間のフィードバックによる強化学習)も重要な役割を担うようになりました。多くの場合、AIの自動付与と人による確認を組み合わせるhuman-in-the-loop(人間が介在するループ)で品質を担保します。\n\n代表的なツールとして、大規模・RLHFに強いScale AI、データ中心のLabelbox、エンドツーエンドのSuperAnnotate、プログラマティックラベリングのSnorkel AI、医療画像対応のEncord、オープンソースのLabel Studioなどがあります。\n\n(★)アノテーションは品質が命です。複数人で作業する場合は判断基準を明文化したガイドラインを整備し、作業者間の一致率を測定して品質を担保しましょう。(★)個人情報や医療情報など機微なデータを外部ワークフォースに渡す場合は、契約や法規制への適合、匿名化の徹底が不可欠です。(★)自動ラベリングは誤りを含むため、最終的な確認は人が行う運用が欠かせません。