データ拡張(Data Augmentation)とは?
読み方: データカクチョウ
30秒まとめ
学習データを人工的に増やす手法。画像の回転・反転やテキストの言い換えなどでモデル精度を向上。
データ拡張(Data Augmentation)の意味・定義
データ拡張(Data Augmentation)は、既存の学習データに変換や加工を施して、データのバリエーションを人工的に増やす手法です。画像分野では回転、反転、拡大縮小、色調変更、クロップなどの変換が一般的で、テキスト分野では同義語置換、文の言い換え、バックトランスレーション(別言語への翻訳と逆翻訳)などが使われます。学習データが少ない場合でもモデルの汎化性能を向上させ、過学習(Overfitting)を抑制する効果があります。近年は生成AIを使った合成データ(Synthetic Data)の生成も広義のデータ拡張として注目されています。Stable DiffusionやDALL-E 3を用いた画像データの合成的な拡張も実用化されています。