DPO (Direct Preference Optimization)

Training Alignment Modelloptimierung

Trainingsverfahren, mit dem Sprachmodelle direkt aus Präferenzpaaren lernen, eine einfachere Alternative zum klassischen RLHF.

Direct Preference Optimization (DPO) ist ein 2023 vorgestelltes Trainingsverfahren, mit dem Sprachmodelle ohne ein separates Reward-Modell direkt aus menschlichen Präferenzpaaren lernen können. Es gilt als deutlich einfachere und stabilere Alternative zum klassischen RLHF (Reinforcement Learning from Human Feedback).

Der Ansatz arbeitet mit Datensätzen, in denen zu einer Anfrage jeweils zwei Antworten vorliegen und festgehalten ist, welche der beiden Antworten Menschen bevorzugen. DPO formuliert das Trainingsproblem so, dass das Modell direkt darauf optimiert wird, bevorzugte Antworten wahrscheinlicher und unerwünschte Antworten unwahrscheinlicher zu machen, ohne die Komplexität von RL-Training.

DPO und seine Nachfolger (IPO, KTO, SimPO, ORPO) sind in der offenen Modell-Community besonders verbreitet und stecken in vielen modernen Open-Weight-Modellen. Für Unternehmen, die eigene Modelle alignen wollen, ist DPO oft die pragmatischste Wahl: weniger Hyperparameter, geringere Rechenkosten und reproduzierbarere Ergebnisse als RLHF, bei vergleichbarer Endqualität.

DPO (Direct Preference Optimization)

Verwandte Begriffe

Hyperparameter

Knowledge Distillation (Wissensdestillation)

PPO (Proximal Policy Optimization)

RLHF (Reinforcement Learning from Human Feedback)

Alignment