PPO (Proximal Policy Optimization)
Reinforcement-Learning-Algorithmus von OpenAI, der besonders stabil große Sprachmodelle nach menschlichem Feedback ausrichtet. Klassiker hinter RLHF.
Proximal Policy Optimization (PPO) ist ein 2017 von OpenAI vorgestellter Reinforcement-Learning-Algorithmus, der durch seine Stabilität und Robustheit zu einem der wichtigsten Verfahren im RL-Bereich wurde. PPO ist die meistgenutzte Methode innerhalb des klassischen RLHF-Workflows (Reinforcement Learning from Human Feedback) und damit ein zentraler Baustein hinter Modellen wie ChatGPT.
Der Kerngedanke: Beim Training wird die "Policy", also das Verhalten des Modells, schrittweise angepasst, dabei aber verhindert, dass sich das Modell zu weit von seinem vorherigen Zustand entfernt. Das passiert über eine clevere Begrenzung (Clipping), die garantiert, dass jeder Trainingsschritt klein und stabil bleibt. So bleibt das Modell während des Alignments hilfreich, ohne katastrophale Verhaltenswechsel.
In der KI-Praxis kommt PPO neben Sprachmodellen auch in der Robotik, in Spielen (Dota 2, StarCraft II) und beim Training autonomer Agenten zum Einsatz. Mit dem Aufkommen von DPO und ähnlichen direkten Verfahren verliert PPO bei reinem LLM-Alignment etwas an Boden, bleibt aber für komplexere Trainings-Setups (Tool-Use, Reasoning-Modelle, agentisches Lernen) ein wichtiger Standard.
Verwandte Begriffe
DPO (Direct Preference Optimization)
Trainingsverfahren, mit dem Sprachmodelle direkt aus Präferenzpaaren lernen, eine einfachere…
Hyperparameter
Hyperparameter sind Konfigurationsparameter, die vor dem Training eines maschinellen Lernmodells…
Knowledge Distillation (Wissensdestillation)
Verfahren, bei dem ein kleines „Schüler"-Modell trainiert wird, die Fähigkeiten eines großen…
Annotation
Im Kontext der künstlichen Intelligenz (KI) bezieht sich Annotation auf den Prozess, bei dem Daten…
Bestärkendes Lernen
Beim bestärkenden Lernen erhält der Lernalgorithmus gelegentliches Feedback für Interaktionen mit…