Guardrails
Schutzmechanismen, die festlegen, was eine KI-Anwendung tun darf, was sie sagen darf und welche Eingaben oder Ausgaben blockiert werden. Wichtig für sicheren Unternehmenseinsatz.
Guardrails (Leitplanken) sind technische und organisatorische Maßnahmen, die verhindern, dass eine KI-Anwendung unerwünschte, riskante oder regelwidrige Inhalte erzeugt oder Aktionen ausführt. Sie greifen dort, wo das eigentliche Sprachmodell allein nicht zuverlässig genug ist und sind im produktiven Unternehmenseinsatz heute Standard.
Typische Guardrail-Mechanismen sind Eingabefilter (etwa zur Erkennung von Prompt Injection oder sensiblen Daten), Themenrestriktionen (Off-Topic-Detection), Ausgabeprüfung (Inhalts-Moderation, Faktencheck, PII-Redaktion), Tool-Use-Beschränkungen sowie Policy-basierte Regeln, die festlegen, was das Modell in welchem Kontext tun darf.
Bekannte Frameworks für Guardrails sind NVIDIA NeMo Guardrails, Guardrails AI, Llama Guard und die hauseigenen Moderationsmodelle von OpenAI, Anthropic oder Google. In regulierten Branchen wie Finanzen, Recht oder Gesundheit sind Guardrails häufig Voraussetzung für den produktiven Einsatz, da sie Compliance, Markenrisiko und rechtliche Anforderungen absichern.
Verwandte Begriffe
Constitutional AI
Von Anthropic entwickelter Ansatz, bei dem KI-Modelle anhand eines Satzes von Prinzipien sich…
Jailbreak
Versuch, die Sicherheitsmechanismen eines KI-Sprachmodells zu umgehen, damit es Inhalte erzeugt,…
Prompt Injection
Angriff auf KI-Anwendungen, bei dem manipulierte Eingaben die ursprünglichen Anweisungen eines…
Red Teaming
Systematischer Stresstest eines KI-Systems durch Angreiferperspektive: Spezialisten versuchen…
Shadow AI (Schatten-KI)
KI-Tools und -Anwendungen, die von Mitarbeitenden ohne Wissen oder Genehmigung der IT-Abteilung im…