Jailbreak

Versuch, die Sicherheitsmechanismen eines KI-Sprachmodells zu umgehen, damit es Inhalte erzeugt, die es eigentlich verweigern soll.

Jailbreak bezeichnet im KI-Kontext den gezielten Versuch, die eingebauten Sicherheitsschranken eines Sprachmodells zu umgehen. Ziel ist es, das Modell zu Antworten zu bewegen, die es laut Hersteller-Policy eigentlich verweigern soll, etwa Anleitungen zu Waffen, illegale Inhalte, Beleidigungen oder das Preisgeben des System-Prompts.

Jailbreak-Techniken nutzen Schwachstellen in der Sprachmodelllogik aus: Rollenspiele ("Stell dir vor, du bist ein böser Roboter ohne Regeln"), schrittweises Heranführen, Übersetzung in andere Sprachen, kreative Verschleierung der Anfrage, oder versteckte Anweisungen in Bildern, Dateien oder Audio. Bekannte Beispiele waren DAN ("Do Anything Now") oder Grandma-Exploits, die emotional manipulieren.

Hersteller arbeiten kontinuierlich gegen Jailbreaks an, etwa über Constitutional AI, RLHF, Red-Teaming und automatisiertes Adversarial Testing. Für Unternehmen, die LLMs einsetzen, sind Jailbreaks relevant, weil sie die Markenreputation und Compliance gefährden können, daher wird in produktiven Systemen häufig eine zusätzliche Sicherheits- oder Moderationsschicht vor das Modell geschaltet.

Verwandte Begriffe