RLHF(人間のフィードバックによる強化学習)とは?

読み方: アールエルエイチエフ

30秒まとめ

人間の評価をもとにAIの出力を改善する強化学習手法。LLMの品質向上に不可欠。

RLHF(人間のフィードバックによる強化学習)の意味・定義

RLHF(Reinforcement Learning from Human Feedback、人間のフィードバックによる強化学習)は、人間の評価者がAIの出力を比較・評価し、その評価データを使ってAIモデルを改善する学習手法です。ChatGPTの成功を支えた中核技術として知られています。具体的には、(1)教師あり微調整(SFT)でベースモデルを調整、(2)人間の評価データから報酬モデルを学習、(3)PPO等の強化学習アルゴリズムで報酬モデルに基づきLLMを最適化、という3段階で進みます。有害な出力の抑制、指示への忠実な追従、自然な対話スタイルの実現に効果を発揮しますが、人間の評価者のバイアスが反映されるリスクや、高コストな人的評価が必要という課題もあります。

関連するAIツール

関連する用語

運営者が開発したAIマーケティングツール