DPO(直接選好最適化)とは?
読み方: ディーピーオー
30秒まとめ
報酬モデルなしで人間の選好データから直接LLMを最適化する手法。RLHFの代替。
DPO(直接選好最適化)の意味・定義
DPO(Direct Preference Optimization、直接選好最適化)は、人間の選好データを使ってLLMを直接最適化する学習手法で、RLHFのシンプルかつ効果的な代替手法として注目されています。RLHFが(1)報酬モデルの学習、(2)PPOによる強化学習という2段階を必要とするのに対し、DPOは選好データ(ペアワイズ比較:良い出力と悪い出力のペア)から直接ポリシーを最適化する単一ステップで済みます。実装が大幅に簡易化され、ハイパーパラメータのチューニングも容易になりました。学習の安定性も高く、RLHFと同等以上の性能を達成できることが報告されています。Llama、Mistral等のオープンソースLLMの学習に広く採用されています。