Red Teaming

Systematischer Stresstest eines KI-Systems durch Angreiferperspektive: Spezialisten versuchen gezielt, Schwächen, Voreingenommenheit und Sicherheitslücken aufzudecken.

Red Teaming stammt ursprünglich aus dem militärischen und Cybersecurity-Kontext und bezeichnet das gezielte Angreifen eines Systems durch ein spezialisiertes Team, um Schwächen vor dem echten Angreifer zu finden. Im KI-Kontext bedeutet Red Teaming, dass Expertinnen und Experten ein Modell systematisch herausfordern, um problematisches Verhalten sichtbar zu machen.

Typische Ziele sind: Sicherheitslücken (Jailbreaks, Prompt Injection), schädliche Inhalte (Gewalt, Diskriminierung, illegale Anleitungen), Halluzinationen in heiklen Themen, Voreingenommenheit, Datenschutzleaks oder unsicheres Werkzeugverhalten bei Agenten. Red Teaming kann manuell ("human red teaming") oder automatisiert durch andere KI-Modelle erfolgen.

Vor dem Release neuer Modelle ist Red Teaming heute Standard bei führenden Anbietern wie OpenAI, Anthropic oder Google DeepMind, oft unter Einbindung externer Sicherheitsfirmen. Auch der EU AI Act verlangt für Hochrisikosysteme regelmäßige adversarial Tests. Im Unternehmenskontext lohnt sich Red Teaming insbesondere vor Einführung eigener KI-Anwendungen mit Kundenkontakt.

Verwandte Begriffe