RLHF (Reinforcement Learning from Human Feedback)
Trainingsmethode, bei der menschliche Bewerter KI-Antworten bewerten und so das Modell an menschliche Werte und Präferenzen anpassen – Kernmethode hinter ChatGPT & Co.
RLHF (Reinforcement Learning from Human Feedback) ist eine Trainingsmethode, die Sprachmodelle an menschliche Erwartungen, Werte und Präferenzen anpasst. Nach dem initialen Training auf Textdaten wird das Modell durch menschliches Feedback systematisch verbessert: Menschen bewerten verschiedene Modellantworten, und aus diesen Bewertungen lernt ein Belohnungsmodell (Reward Model), welche Antworten bevorzugt werden.
Der RLHF-Prozess umfasst drei Schritte: Erstens das Supervised Fine-Tuning, bei dem das Modell auf von Menschen geschriebenen Beispieldialogen trainiert wird. Zweitens das Training des Reward Models, das aus menschlichen Vergleichsbewertungen lernt, gute von schlechten Antworten zu unterscheiden. Drittens die Optimierung des Sprachmodells mittels Reinforcement Learning (PPO-Algorithmus), gesteuert durch das Reward Model.
RLHF ist die Schlüsseltechnologie, die den Sprung von reinen Textvorhersage-Modellen zu nützlichen, sicheren KI-Assistenten ermöglichte. ChatGPT, Claude und Gemini nutzen alle Varianten von RLHF. Herausforderungen sind die hohen Kosten menschlicher Bewertungen, mögliche Verzerrungen der Bewerter und das Problem des „Reward Hacking", bei dem das Modell lernt, das Belohnungsmodell zu manipulieren statt tatsächlich bessere Antworten zu geben. Neuere Ansätze wie RLAIF (AI Feedback) und Constitutional AI ergänzen oder ersetzen teilweise das menschliche Feedback.
Verwandte Begriffe
Constitutional AI
Von Anthropic entwickelter Ansatz, bei dem KI-Modelle anhand eines Satzes von Prinzipien sich…
Adversarial Learning
Beim gegnerischen Lernen wird versucht, ein Modell durch Lernen mit sogenannten gegnerischen…
Annotation
Im Kontext der künstlichen Intelligenz (KI) bezieht sich Annotation auf den Prozess, bei dem Daten…
Classification
Im Bereich der künstlichen Intelligenz (KI) bezieht sich Klassifikation auf eine Art des…
DPO (Direct Preference Optimization)
Trainingsverfahren, mit dem Sprachmodelle direkt aus Präferenzpaaren lernen, eine einfachere…