AIレッドチーミングとは?
読み方: エーアイレッドチーミング
30秒まとめ
AIモデルの脆弱性や有害な出力を意図的に探索・テストする安全性評価手法。
AIレッドチーミングの意味・定義
AIレッドチーミング(AI Red Teaming)は、サイバーセキュリティのレッドチーム手法をAIに応用したもので、AIモデルの脆弱性、バイアス、有害な出力を意図的に引き出すためのテスト手法です。専門家チームがAIモデルに対して、プロンプトインジェクション、ジェイルブレイク、バイアスを誘発する質問などの攻撃的なテストを実施し、問題を特定・修正します。OpenAI、Google、Anthropicなどの主要AI企業がモデルリリース前にレッドチーミングを実施しており、米国政府もAI安全性評価の一環として推奨しています。自動化されたレッドチーミング(AIがAIを攻撃するテスト)も発展しており、モデルの安全性を継続的に改善するプロセスとして定着しつつあります。