RLHF(人間のフィードバックによる強化学習)とは?
読み方: アールエルエイチエフ
30秒まとめ
人間の評価をもとにAIの出力を改善する強化学習手法。LLMの品質向上に不可欠。
RLHF(人間のフィードバックによる強化学習)の意味・定義
RLHF(Reinforcement Learning from Human Feedback、人間のフィードバックによる強化学習)は、人間の評価者がAIの出力を比較・評価し、その評価データを使ってAIモデルを改善する学習手法です。ChatGPTの成功を支えた中核技術として知られています。具体的には、(1)教師あり微調整(SFT)でベースモデルを調整、(2)人間の評価データから報酬モデルを学習、(3)PPO等の強化学習アルゴリズムで報酬モデルに基づきLLMを最適化、という3段階で進みます。有害な出力の抑制、指示への忠実な追従、自然な対話スタイルの実現に効果を発揮しますが、人間の評価者のバイアスが反映されるリスクや、高コストな人的評価が必要という課題もあります。