Validation

Validation im maschinellen Lernen bezieht sich auf den Prozess der Bewertung der Leistung eines Modells auf einem separaten Datensatz, der nicht für das Training verwendet wurde. Es hilft dabei, die G...

Validation bezeichnet im maschinellen Lernen die Bewertung eines Modells auf Daten, die nicht für das Training verwendet wurden. Ziel ist es zu prüfen, ob das Modell die erlernten Muster auch auf neue, unbekannte Fälle übertragen kann. Validation ist damit ein zentraler Schritt der Qualitätssicherung zwischen dem Training und dem produktiven Einsatz eines Modells.

Technisch wird der vorhandene Datenbestand meist in drei Teile aufgeteilt: Trainingsdaten, Validierungsdaten und Testdaten. Während das Modell auf den Trainingsdaten lernt, dient die Validierung dazu, Einstellungen wie Modellgröße, Lernrate oder Schwellenwerte zu optimieren. Eine verbreitete Methode ist die Kreuzvalidierung, bei der die Daten mehrfach in unterschiedliche Trainings- und Validierungsblöcke aufgeteilt werden, um zufällige Verzerrungen zu vermeiden. Erkennt man dabei, dass das Modell auf den Trainingsdaten sehr gut, auf den Validierungsdaten aber deutlich schlechter abschneidet, liegt ein Hinweis auf Overfitting vor – das Modell hat die Trainingsbeispiele auswendig gelernt, statt allgemeingültige Muster zu erkennen.

Für kleine und mittlere Unternehmen ist Validation immer dann relevant, wenn KI-Lösungen eingekauft oder eingeführt werden – etwa eine Software zur automatischen Rechnungserkennung, ein Prognosetool für den Lagerbestand oder ein Chatbot für den Kundenservice. Wer einen Anbieter beauftragt, sollte konkret nachfragen, wie das Modell validiert wurde und welche Genauigkeitswerte auf welchen Daten erreicht wurden. Besonders wichtig ist, dass die Validierungsdaten den eigenen Geschäftsdaten ähneln: Ein Modell, das auf Rechnungen aus dem Einzelhandel trainiert wurde, liefert in einer Handwerksfirma womöglich schwache Ergebnisse. Auch nach der Einführung lohnt es sich, die Leistung regelmäßig anhand neuer Daten zu überprüfen, da sich Geschäftsprozesse und Eingaben mit der Zeit verändern können.

Validation ist eng verwandt mit dem Testen und dem Monitoring im laufenden Betrieb. Während Validation vor allem während der Modellentwicklung stattfindet, deckt das laufende Monitoring später Veränderungen in der Datenqualität oder im Nutzungsverhalten auf. Beides zusammen bildet die Grundlage dafür, dass KI im Unternehmen verlässlich funktioniert.

Verwandte Begriffe