RLHF (Reinforcement Learning from Human Feedback)

KI & ML Training Alignment Sicherheit

Trainingsmethode, bei der menschliche Bewerter KI-Antworten bewerten und so das Modell an menschliche Werte und Präferenzen anpassen – Kernmethode hinter ChatGPT & Co.

RLHF (Reinforcement Learning from Human Feedback) ist eine Trainingsmethode, die Sprachmodelle an menschliche Erwartungen, Werte und Präferenzen anpasst. Nach dem initialen Training auf Textdaten wird das Modell durch menschliches Feedback systematisch verbessert: Menschen bewerten verschiedene Modellantworten, und aus diesen Bewertungen lernt ein Belohnungsmodell (Reward Model), welche Antworten bevorzugt werden.

Der RLHF-Prozess umfasst drei Schritte: Erstens das Supervised Fine-Tuning, bei dem das Modell auf von Menschen geschriebenen Beispieldialogen trainiert wird. Zweitens das Training des Reward Models, das aus menschlichen Vergleichsbewertungen lernt, gute von schlechten Antworten zu unterscheiden. Drittens die Optimierung des Sprachmodells mittels Reinforcement Learning (PPO-Algorithmus), gesteuert durch das Reward Model.

RLHF ist die Schlüsseltechnologie, die den Sprung von reinen Textvorhersage-Modellen zu nützlichen, sicheren KI-Assistenten ermöglichte. ChatGPT, Claude und Gemini nutzen alle Varianten von RLHF. Herausforderungen sind die hohen Kosten menschlicher Bewertungen, mögliche Verzerrungen der Bewerter und das Problem des „Reward Hacking", bei dem das Modell lernt, das Belohnungsmodell zu manipulieren statt tatsächlich bessere Antworten zu geben. Neuere Ansätze wie RLAIF (AI Feedback) und Constitutional AI ergänzen oder ersetzen teilweise das menschliche Feedback.

RLHF (Reinforcement Learning from Human Feedback)

Verwandte Begriffe

Constitutional AI

Adversarial Learning

Annotation

Classification

DPO (Direct Preference Optimization)