Model Collapse

KI & ML Training Datenqualität Risiken

Phänomen, bei dem KI-Modelle an Qualität verlieren, wenn sie auf von KI generierten Daten statt auf menschlichen Daten trainiert werden – ein wachsendes Problem.

Model Collapse (Modellkollaps) beschreibt den fortschreitenden Qualitätsverlust von KI-Modellen, die auf Daten trainiert werden, die selbst von KI-Modellen erzeugt wurden. Wenn Modell A Texte generiert, Modell B auf diesen Texten trainiert wird und Modell C wiederum auf Texten von Modell B – dann degeneriert die Qualität mit jeder Generation, bis die Ausgaben bedeutungslos werden.

Der Mechanismus ähnelt dem Kopieren einer Kopie: Jede Generation verstärkt Fehler und Verzerrungen des Vorgängermodells, während die Vielfalt und Nuancierung der Ausgaben abnimmt. Seltene, aber wichtige Informationen gehen verloren, häufige Muster werden überrepräsentiert. Forscher der Universität Oxford haben 2024 gezeigt, dass bereits wenige Generationen synthetischer Trainingsdaten zu messbarem Qualitätsverlust führen.

Model Collapse ist ein wachsendes praktisches Problem: Da KI-generierte Inhalte das Internet zunehmend fluten, wird es immer schwieriger, rein menschlich erstellte Trainingsdaten zu finden. Schätzungen zufolge könnten bis 2026 über 90 % der Online-Inhalte KI-generiert oder KI-unterstützt sein. Gegenmaßnahmen umfassen Datenkuratierung mit Herkunftsnachweis, das gezielte Mischen von menschlichen und synthetischen Daten sowie Wasserzeichen-Technologien zur Erkennung von KI-Inhalten.

Model Collapse

Verwandte Begriffe

Annotation

Classification

Finetuning

Hyperparameter

KI Modell