DPO (Direct Preference Optimization)
Trainingsverfahren, mit dem Sprachmodelle direkt aus Präferenzpaaren lernen, eine einfachere Alternative zum klassischen RLHF.
Direct Preference Optimization (DPO) ist ein 2023 vorgestelltes Trainingsverfahren, mit dem Sprachmodelle ohne ein separates Reward-Modell direkt aus menschlichen Präferenzpaaren lernen können. Es gilt als deutlich einfachere und stabilere Alternative zum klassischen RLHF (Reinforcement Learning from Human Feedback).
Der Ansatz arbeitet mit Datensätzen, in denen zu einer Anfrage jeweils zwei Antworten vorliegen und festgehalten ist, welche der beiden Antworten Menschen bevorzugen. DPO formuliert das Trainingsproblem so, dass das Modell direkt darauf optimiert wird, bevorzugte Antworten wahrscheinlicher und unerwünschte Antworten unwahrscheinlicher zu machen, ohne die Komplexität von RL-Training.
DPO und seine Nachfolger (IPO, KTO, SimPO, ORPO) sind in der offenen Modell-Community besonders verbreitet und stecken in vielen modernen Open-Weight-Modellen. Für Unternehmen, die eigene Modelle alignen wollen, ist DPO oft die pragmatischste Wahl: weniger Hyperparameter, geringere Rechenkosten und reproduzierbarere Ergebnisse als RLHF, bei vergleichbarer Endqualität.
Verwandte Begriffe
Hyperparameter
Hyperparameter sind Konfigurationsparameter, die vor dem Training eines maschinellen Lernmodells…
Knowledge Distillation (Wissensdestillation)
Verfahren, bei dem ein kleines „Schüler"-Modell trainiert wird, die Fähigkeiten eines großen…
PPO (Proximal Policy Optimization)
Reinforcement-Learning-Algorithmus von OpenAI, der besonders stabil große Sprachmodelle nach…
RLHF (Reinforcement Learning from Human Feedback)
Trainingsmethode, bei der menschliche Bewerter KI-Antworten bewerten und so das Modell an…
Alignment
Forschungs- und Praxisfeld, das sicherstellen soll, dass KI-Systeme die Ziele, Werte und Absichten…