KI-Halluzinationen: Wenn Sicherheit in die Irre führt

02. Juni 20265 Min. Lesezeit

Eine KI-Antwort klingt professionell, verwendet die richtigen Fachbegriffe, formuliert präzise. Also übernimmst du sie. Genau darin liegt das Problem. Denn laut aktueller Forschung klingt KI am überzeugendsten genau dann, wenn sie falsch liegt.

Das Paradoxon: Selbstsichere Sprache bei falschen Aussagen

Eine MIT-Studie aus Januar 2025 hat nachgewiesen, dass KI-Modelle bei Halluzinationen tendenziell selbstsicherere Sprache verwenden als bei faktischen Angaben. Wörter wie „definitiv", „sicher" und „zweifellos" tauchen bei falschen Informationen häufiger auf als bei richtigen. Das ist kein Zufall im Sprachstil. Es hat mit dem Grundprinzip zu tun, nach dem große Sprachmodelle funktionieren.

KI-Modelle rechnen Wort für Wort aus, welches Token als nächstes am wahrscheinlichsten kommt. Sie verstehen keinen Sachverhalt und kennen keine Fakten. Sie optimieren auf Plausibilität. Und eine plausibel klingende Antwort verwendet eben sicheres, entschiedenes Vokabular. OpenAI hat in einem Paper vom September 2025 belegt, dass gängige Trainings- und Bewertungsmethoden dieses Verhalten sogar aktiv belohnen: Modelle lernen buchstäblich, zu bluffen.

Wie hoch ist die Fehlerquote wirklich?

Ein Benchmark aus dem Jahr 2026, der 37 verschiedene Modelle untersuchte, ermittelte Halluzinationsraten zwischen 15 % und 52 %. Das sind keine Ausreißer in Extremsituationen. Das ist der Normalbereich im Produktivbetrieb. Bei spezialisierten Themen fallen die Zahlen noch dramatischer aus: Eine Stanford RegLab-Studie stellte fest, dass Sprachmodelle bei juristischen Anfragen mindestens 75 % der Zeit über Gerichtsurteile halluzinierten und dabei über 120 erfundene Fälle mit realistisch klingenden, aber fiktiven Begründungen produzierten.

Besonders interessant ist ein kontraintuitives Muster bei neueren Reasoning-Modellen wie OpenAI o3 und o4-mini: Diese Modelle sind bei vielen Aufgaben leistungsstärker, halluzinieren bei personenbezogenen Fakten aber bis zu 48 % der Zeit. Eine längere, strukturierter wirkende Antwort ist also kein Qualitätsmerkmal. Sie kann das Gegenteil sein.

Was das für kleine Unternehmen im DACH-Raum bedeutet

Das betrifft nicht nur Anwaltskanzleien oder Forschungseinrichtungen. Eine Studie der Marketingagentur maxonline® aus dem April 2026 testete, wie ChatGPT 150 Mittelstandsunternehmen aus dem DACH-Raum beschreibt, mit über 450 verschiedenen Prompts. Die Ergebnisse:

Nur 3 % der Unternehmen wurden vollständig korrekt dargestellt
96 % der genannten Geschäftsführernamen waren frei erfunden
78 % der Gründungsjahre stimmten nicht, teils mit Abweichungen von über 160 Jahren
68 % der Mitarbeiterzahlen waren falsch
58 % der genannten Auszeichnungen und Zertifizierungen existierten nicht

Was die Studie besonders deutlich zeigt: KI erfindet keine generischen Fakten. Sie erfindet konkrete Angaben zu echten, existierenden Unternehmen. Mit überzeugend klingenden Details.

Drei Beispiele, die zeigen, wie teuer das werden kann

Das erfundene EU-Gesetz im Angebot

Ein Unternehmen nutzte KI für eine hochrangige Ausschreibung. Die KI formulierte einen Abschnitt, der eine „EU Transportation Data Safeguards Amendment" von 2023 zitierte, technisch, förmlich, im Ton echter Gesetzgebung. Die Änderung existierte nicht. Der Kunde erkannte es sofort. Das Beschaffungsverfahren wurde gestoppt, eine interne Prüfung eingeleitet. Der Reputationsschaden kostete Monate des Vertrauensaufbaus.

Die erfundenen Sicherheitsnormen in der technischen Dokumentation

Ein mittelständisches Fertigungsunternehmen nutzte ChatGPT zur Erstellung technischer Dokumentation. Die KI produzierte überzeugend klingende, aber faktisch falsche Sicherheitsanweisungen, inklusive nicht existierender Sicherheitsnormen und Standards. Der Fehler blieb unentdeckt, bis es fast zu einem Unfall kam.

Die Halluzinationen im Unternehmensreport

Eine Analyse des KI-Detektors GPTZero vom 30. Mai 2026 stellte fest, dass ein Ernst & Young Canada-Bericht aus dem Jahr 2025 erfundene Statistiken, defekte Links und einen Verweis auf einen nicht existierenden McKinsey-Bericht enthielt. Das zeigt: Halluzinationen betreffen nicht nur kleine Teams ohne Ressourcen. Sie passieren auch dort, wo man es am wenigsten erwartet.

Was das Gesetz jetzt von dir verlangt

Seit dem 2. Februar 2025 gilt Artikel 4 des EU AI Act: Jedes Unternehmen, das KI-Systeme einsetzt, muss sicherstellen, dass die beteiligten Mitarbeitenden über ausreichende KI-Kompetenz verfügen. Die Regelung gilt unabhängig von der Unternehmensgröße. Ein Fünf-Personen-Betrieb, der ChatGPT nutzt, ist genauso betroffen wie ein Konzern.

Ab dem 2. August 2026 beginnt die behördliche Durchsetzung. Halluzinations-Erkennung ist ausdrücklich Bestandteil dieser geforderten Kompetenz. Wer bis dahin keine dokumentierte Einweisung in die Risiken und Grenzen der genutzten KI-Tools vorweisen kann, setzt sich Haftungsrisiken aus.

Praktischer Tipp: Jeder KI-generierte Text, der nach außen geht, sollte von einem Menschen geprüft werden. Das gilt für Newsletter, Angebote, Pressemitteilungen und jegliche technische Dokumentation. Mindestens die konkreten Faktenaussagen müssen gegengecheckt werden.

Was wirklich hilft: Prüfen, nicht vertrauen

Es gibt technische Ansätze, die das Problem verringern. Retrieval-Augmented Generation (RAG) etwa reichert Anfragen mit Wissen aus verknüpften Datenbanken an, bevor das Modell antwortet, und reduziert Halluzinationen dadurch spürbar. Anthropic hat in seiner Interpretabilitätsforschung 2025 gezeigt, wie Modelle lernen können, eine Frage nur dann zu beantworten, wenn sie die Antwort tatsächlich kennen. Fortgeschrittenere Modelle wie GPT-5 geben häufiger „Ich weiß es nicht" als Antwort. Das alles sind Fortschritte. Aber OpenAI hat in einer mathematischen Analyse belegt, dass Halluzinationen strukturell nie vollständig eliminiert werden können.

Was das für den Alltag bedeutet: KI ist ein leistungsfähiges Werkzeug für Entwürfe, Recherche-Einstiege, Formulierungshilfen und Textstrukturierung. Für Faktenaussagen, die nach außen gehen oder in Entscheidungen fließen, braucht es immer einen menschlichen Gegenkcheck.

Wer KI-Tools nutzt, die quellenbasiert arbeiten, hat dabei einen strukturellen Vorteil. Der RechercheMeister auf der ConRat AI Plattform etwa arbeitet mit verknüpften Quellen und zeigt die Herkunft jeder Aussage transparent an, was das Gegenprüfen deutlich einfacher macht. Auch die enthaltene Prompt-Bibliothek enthält fertige Prompts, die explizit auf Faktentreue und Quellenangabe ausgelegt sind.

Unser Fazit

Das eigentliche Risiko bei KI-Halluzinationen liegt nicht in den offensichtlichen Fehlern. Es liegt in den überzeugenden. Je professioneller eine KI-Antwort klingt, desto weniger wird sie geprüft. Genau das macht Halluzinationen in Unternehmenskontexten gefährlich. Die Lösung ist kein Misstrauen gegenüber KI als solcher, und auch kein Verzicht auf das Werkzeug. Die Lösung ist ein klares Bewusstsein dafür, was KI kann und was sie nicht kann, kombiniert mit einem einfachen, konsequent gelebten Vier-Augen-Prinzip bei allem, was nach außen geht.

Ab August 2026 ist genau dieses Bewusstsein auch gesetzlich gefordert. Wer schon heute weiß, wie KI-Halluzinationen entstehen und wie man sie erkennt, ist auf der sicheren Seite.