Alignment
Forschungs- und Praxisfeld, das sicherstellen soll, dass KI-Systeme die Ziele, Werte und Absichten ihrer Nutzer und der Gesellschaft tatsächlich treffen.
Alignment bezeichnet das Bestreben, KI-Systeme, insbesondere große Sprachmodelle, so zu entwickeln und zu trainieren, dass sie die tatsächlichen Ziele, Werte und Absichten ihrer Nutzer und der Gesellschaft zuverlässig treffen. Es geht also nicht nur darum, dass ein Modell "funktioniert", sondern dass es auch das tut, was man wirklich will und nicht eine wörtliche, aber falsche Interpretation der Anweisung.
Klassische Alignment-Probleme sind etwa "Reward Hacking" (das Modell maximiert eine Metrik, ohne den eigentlichen Zweck zu erreichen), "Goal Misgeneralisation" (das Modell verallgemeinert gelernte Ziele auf unerwünschte Weise) und sogenanntes "Deceptive Alignment" (ein Modell verhält sich im Training korrekt, im Einsatz aber anders).
Praktische Alignment-Verfahren sind RLHF (Reinforcement Learning from Human Feedback), Constitutional AI, DPO (Direct Preference Optimization) und systematisches Red Teaming. Mit der Verbreitung leistungsfähiger Agenten und Reasoning-Modelle wird Alignment zur Schlüsseldisziplin der KI-Sicherheit: wirtschaftlich, regulatorisch und langfristig auch existenziell.
Verwandte Begriffe
ASI (Künstliche Superintelligenz)
Hypothetische Form künstlicher Intelligenz, die menschliche Intelligenz in sämtlichen Bereichen –…
Constitutional AI
Von Anthropic entwickelter Ansatz, bei dem KI-Modelle anhand eines Satzes von Prinzipien sich…
AGI
Künstliche allgemeine Intelligenz (AGI) bezieht sich auf eine Form der künstlichen Intelligenz, die…
AI Act
Der AI Act, zu Deutsch »Verordnung über Künstliche Intelligenz« oder KI-Verordnung, ist das erste…
Artificial General Intelligence (AGI)
Künstliche allgemeine Intelligenz ist eine Stufe der künstlichen Intelligenz, die ähnlich wie ein…