Alignment

Forschungs- und Praxisfeld, das sicherstellen soll, dass KI-Systeme die Ziele, Werte und Absichten ihrer Nutzer und der Gesellschaft tatsächlich treffen.

Alignment bezeichnet das Bestreben, KI-Systeme, insbesondere große Sprachmodelle, so zu entwickeln und zu trainieren, dass sie die tatsächlichen Ziele, Werte und Absichten ihrer Nutzer und der Gesellschaft zuverlässig treffen. Es geht also nicht nur darum, dass ein Modell "funktioniert", sondern dass es auch das tut, was man wirklich will und nicht eine wörtliche, aber falsche Interpretation der Anweisung.

Klassische Alignment-Probleme sind etwa "Reward Hacking" (das Modell maximiert eine Metrik, ohne den eigentlichen Zweck zu erreichen), "Goal Misgeneralisation" (das Modell verallgemeinert gelernte Ziele auf unerwünschte Weise) und sogenanntes "Deceptive Alignment" (ein Modell verhält sich im Training korrekt, im Einsatz aber anders).

Praktische Alignment-Verfahren sind RLHF (Reinforcement Learning from Human Feedback), Constitutional AI, DPO (Direct Preference Optimization) und systematisches Red Teaming. Mit der Verbreitung leistungsfähiger Agenten und Reasoning-Modelle wird Alignment zur Schlüsseldisziplin der KI-Sicherheit: wirtschaftlich, regulatorisch und langfristig auch existenziell.

Verwandte Begriffe