Constitutional AI
Von Anthropic entwickelter Ansatz, bei dem KI-Modelle anhand eines Satzes von Prinzipien sich selbst korrigieren – für sichere KI mit minimalem menschlichen Aufwand.
Constitutional AI (CAI) ist ein von Anthropic entwickelter Ansatz zur Ausrichtung (Alignment) von KI-Modellen, bei dem das Modell einen Satz von Grundprinzipien – eine „Verfassung" – erhält und lernt, seine eigenen Antworten anhand dieser Prinzipien zu bewerten und zu korrigieren. Statt tausender menschlicher Bewertungen reichen etwa 10 bis 20 sorgfältig formulierte Regeln.
Der Prozess funktioniert in zwei Phasen: In der ersten Phase (Supervised Learning) generiert das Modell Antworten, bewertet sie selbst anhand der Verfassungsprinzipien und erstellt verbesserte Versionen. In der zweiten Phase (RLAIF – Reinforcement Learning from AI Feedback) wird ein Belohnungsmodell aus diesen Selbstbewertungen trainiert, das dann das finale Modell optimiert.
Der Vorteil gegenüber klassischem RLHF ist vielfältig: Deutlich geringere Kosten, da weniger menschliche Bewerter benötigt werden, transparentere Entscheidungen, da die Prinzipien offen einsehbar sind, und die Möglichkeit, Verhaltensregeln schnell anzupassen, ohne das Modell komplett neu zu trainieren. Die Verfassungsprinzipien umfassen typischerweise Regeln zu Ehrlichkeit, Hilfsbereitschaft, Vermeidung von Schaden und Respekt gegenüber Nutzern. Constitutional AI hat die Debatte um KI-Sicherheit maßgeblich beeinflusst und wird zunehmend auch von anderen Anbietern adaptiert.
Verwandte Begriffe
RLHF (Reinforcement Learning from Human Feedback)
Trainingsmethode, bei der menschliche Bewerter KI-Antworten bewerten und so das Modell an…
Adversarial Learning
Beim gegnerischen Lernen wird versucht, ein Modell durch Lernen mit sogenannten gegnerischen…
Alignment
Forschungs- und Praxisfeld, das sicherstellen soll, dass KI-Systeme die Ziele, Werte und Absichten…
ASI (Künstliche Superintelligenz)
Hypothetische Form künstlicher Intelligenz, die menschliche Intelligenz in sämtlichen Bereichen –…
Guardrails
Schutzmechanismen, die festlegen, was eine KI-Anwendung tun darf, was sie sagen darf und welche…