DPO（直接選好最適化）とは？

読み方: ディーピーオー

30秒まとめ

報酬モデルなしで人間の選好データから直接LLMを最適化する手法。RLHFの代替。

DPO（直接選好最適化）の意味・定義

DPO（Direct Preference Optimization、直接選好最適化）は、人間の選好データを使ってLLMを直接最適化する学習手法で、RLHFのシンプルかつ効果的な代替手法として注目されています。RLHFが(1)報酬モデルの学習、(2)PPOによる強化学習という2段階を必要とするのに対し、DPOは選好データ（ペアワイズ比較：良い出力と悪い出力のペア）から直接ポリシーを最適化する単一ステップで済みます。実装が大幅に簡易化され、ハイパーパラメータのチューニングも容易になりました。学習の安定性も高く、RLHFと同等以上の性能を達成できることが報告されています。Llama、Mistral等のオープンソースLLMの学習に広く採用されています。

DPO（直接選好最適化）とは？

30秒まとめ

DPO（直接選好最適化）の意味・定義

関連するAIツール

Hugging Face

関連する用語

運営者が開発したAIマーケティングツール

MixCast

AIOPulse

UGCast