Constitutional AI

KI & ML Alignment Sicherheit Ethik & Sicherheit

Von Anthropic entwickelter Ansatz, bei dem KI-Modelle anhand eines Satzes von Prinzipien sich selbst korrigieren – für sichere KI mit minimalem menschlichen Aufwand.

Constitutional AI (CAI) ist ein von Anthropic entwickelter Ansatz zur Ausrichtung (Alignment) von KI-Modellen, bei dem das Modell einen Satz von Grundprinzipien – eine „Verfassung" – erhält und lernt, seine eigenen Antworten anhand dieser Prinzipien zu bewerten und zu korrigieren. Statt tausender menschlicher Bewertungen reichen etwa 10 bis 20 sorgfältig formulierte Regeln.

Der Prozess funktioniert in zwei Phasen: In der ersten Phase (Supervised Learning) generiert das Modell Antworten, bewertet sie selbst anhand der Verfassungsprinzipien und erstellt verbesserte Versionen. In der zweiten Phase (RLAIF – Reinforcement Learning from AI Feedback) wird ein Belohnungsmodell aus diesen Selbstbewertungen trainiert, das dann das finale Modell optimiert.

Der Vorteil gegenüber klassischem RLHF ist vielfältig: Deutlich geringere Kosten, da weniger menschliche Bewerter benötigt werden, transparentere Entscheidungen, da die Prinzipien offen einsehbar sind, und die Möglichkeit, Verhaltensregeln schnell anzupassen, ohne das Modell komplett neu zu trainieren. Die Verfassungsprinzipien umfassen typischerweise Regeln zu Ehrlichkeit, Hilfsbereitschaft, Vermeidung von Schaden und Respekt gegenüber Nutzern. Constitutional AI hat die Debatte um KI-Sicherheit maßgeblich beeinflusst und wird zunehmend auch von anderen Anbietern adaptiert.

Constitutional AI

Verwandte Begriffe

RLHF (Reinforcement Learning from Human Feedback)

Adversarial Learning

Alignment

ASI (Künstliche Superintelligenz)

Guardrails