Adversarial Learning
Beim gegnerischen Lernen wird versucht, ein Modell durch Lernen mit sogenannten gegnerischen Beispielen (Adversarial Examples) robuster gegenüber Angriffen zu machen. Diese Beispiele sind gezielt gest...
Adversarial Learning, auf Deutsch gegnerisches Lernen, bezeichnet ein Trainingsverfahren für KI-Modelle, bei dem das Modell bewusst mit manipulierten oder irreführenden Daten konfrontiert wird. Ziel ist es, das System widerstandsfähiger gegenüber Täuschungsversuchen und unerwarteten Eingaben zu machen. Im Kern lernt die KI also nicht nur aus echten Daten, sondern auch aus gezielt konstruierten Problemfällen.
Die manipulierten Daten heißen Adversarial Examples. Das sind beispielsweise Bilder, die für das menschliche Auge unverändert aussehen, durch winzige Pixelveränderungen aber dazu führen, dass eine Bilderkennung ein Stoppschild plötzlich als Geschwindigkeitsbegrenzung einstuft. Beim Training werden solche Störbeispiele automatisch erzeugt und dem Modell vorgelegt, damit es lernt, sie korrekt zu klassifizieren. Verwandt ist das Konzept der Generative Adversarial Networks, bei denen zwei Modelle gegeneinander antreten: eines erzeugt Fälschungen, das andere versucht, sie zu entlarven. Aus diesem Wettstreit entstehen sowohl robustere Erkenner als auch realistischere generative Modelle.
Für kleine und mittlere Unternehmen ist das Thema vor allem dort relevant, wo KI-Systeme sicherheitskritische oder geschäftskritische Entscheidungen treffen. Beispiele sind die automatische Rechnungs- oder Belegerkennung, Betrugserkennung im Zahlungsverkehr, Spam- und Phishing-Filter, biometrische Zugangskontrollen oder Qualitätsprüfungen in der Fertigung. Wer fertige KI-Dienste einkauft, sollte beim Anbieter nachfragen, wie das Modell gegen Manipulationen abgesichert ist, besonders wenn personenbezogene Daten oder finanzielle Transaktionen im Spiel sind. Auch im Rahmen des EU AI Act gewinnt die nachweisbare Robustheit von KI-Systemen an Bedeutung.
Adversarial Learning ist allerdings kein Allheilmittel. Ein Modell, das gegen bekannte Angriffsmuster gehärtet wurde, kann gegenüber neuen Angriffsvarianten weiterhin verwundbar sein. Sicherheit bei KI bleibt damit ein laufender Prozess und kein einmaliger Projektabschluss.
Verwandte Begriffe
Constitutional AI
Von Anthropic entwickelter Ansatz, bei dem KI-Modelle anhand eines Satzes von Prinzipien sich…
KI-Sicherheit
Die Sicherstellung, dass KI-Systeme robust, zuverlässig und sicher sind. Dies umfasst den Schutz…
RLHF (Reinforcement Learning from Human Feedback)
Trainingsmethode, bei der menschliche Bewerter KI-Antworten bewerten und so das Modell an…
Uncertainty Estimation
Verfahren, mit denen ein KI-Modell einschätzen kann, wie sicher es sich seiner eigenen Vorhersage…
A2A (Agent-to-Agent)
A2A (Agent-to-Agent) ist ein von Google vorgeschlagener offener Standard zur Ermöglichung der…