Guardrails

Schutzmechanismen, die festlegen, was eine KI-Anwendung tun darf, was sie sagen darf und welche Eingaben oder Ausgaben blockiert werden. Wichtig für sicheren Unternehmenseinsatz.

Guardrails (Leitplanken) sind technische und organisatorische Maßnahmen, die verhindern, dass eine KI-Anwendung unerwünschte, riskante oder regelwidrige Inhalte erzeugt oder Aktionen ausführt. Sie greifen dort, wo das eigentliche Sprachmodell allein nicht zuverlässig genug ist und sind im produktiven Unternehmenseinsatz heute Standard.

Typische Guardrail-Mechanismen sind Eingabefilter (etwa zur Erkennung von Prompt Injection oder sensiblen Daten), Themenrestriktionen (Off-Topic-Detection), Ausgabeprüfung (Inhalts-Moderation, Faktencheck, PII-Redaktion), Tool-Use-Beschränkungen sowie Policy-basierte Regeln, die festlegen, was das Modell in welchem Kontext tun darf.

Bekannte Frameworks für Guardrails sind NVIDIA NeMo Guardrails, Guardrails AI, Llama Guard und die hauseigenen Moderationsmodelle von OpenAI, Anthropic oder Google. In regulierten Branchen wie Finanzen, Recht oder Gesundheit sind Guardrails häufig Voraussetzung für den produktiven Einsatz, da sie Compliance, Markenrisiko und rechtliche Anforderungen absichern.

Verwandte Begriffe