Jailbreak
Versuch, die Sicherheitsmechanismen eines KI-Sprachmodells zu umgehen, damit es Inhalte erzeugt, die es eigentlich verweigern soll.
Jailbreak bezeichnet im KI-Kontext den gezielten Versuch, die eingebauten Sicherheitsschranken eines Sprachmodells zu umgehen. Ziel ist es, das Modell zu Antworten zu bewegen, die es laut Hersteller-Policy eigentlich verweigern soll, etwa Anleitungen zu Waffen, illegale Inhalte, Beleidigungen oder das Preisgeben des System-Prompts.
Jailbreak-Techniken nutzen Schwachstellen in der Sprachmodelllogik aus: Rollenspiele ("Stell dir vor, du bist ein böser Roboter ohne Regeln"), schrittweises Heranführen, Übersetzung in andere Sprachen, kreative Verschleierung der Anfrage, oder versteckte Anweisungen in Bildern, Dateien oder Audio. Bekannte Beispiele waren DAN ("Do Anything Now") oder Grandma-Exploits, die emotional manipulieren.
Hersteller arbeiten kontinuierlich gegen Jailbreaks an, etwa über Constitutional AI, RLHF, Red-Teaming und automatisiertes Adversarial Testing. Für Unternehmen, die LLMs einsetzen, sind Jailbreaks relevant, weil sie die Markenreputation und Compliance gefährden können, daher wird in produktiven Systemen häufig eine zusätzliche Sicherheits- oder Moderationsschicht vor das Modell geschaltet.
Verwandte Begriffe
Prompt Injection
Angriff auf KI-Anwendungen, bei dem manipulierte Eingaben die ursprünglichen Anweisungen eines…
Büroklammer-Maximierer
Die Theorie des Büroklammer-Maximierers, die von dem Philosophen Nick Boström von der Universität…
Constitutional AI
Von Anthropic entwickelter Ansatz, bei dem KI-Modelle anhand eines Satzes von Prinzipien sich…
Guardrails
Schutzmechanismen, die festlegen, was eine KI-Anwendung tun darf, was sie sagen darf und welche…
Red Teaming
Systematischer Stresstest eines KI-Systems durch Angreiferperspektive: Spezialisten versuchen…