Knowledge Distillation (Wissensdestillation)
Verfahren, bei dem ein kleines „Schüler"-Modell trainiert wird, die Fähigkeiten eines großen „Lehrer"-Modells nachzuahmen – für effizientere KI ohne großen Qualitätsverlust.
Knowledge Distillation (Wissensdestillation) ist ein Trainingsverfahren, bei dem das Wissen eines großen, leistungsstarken „Lehrer"-Modells auf ein deutlich kleineres „Schüler"-Modell übertragen wird. Das Schüler-Modell lernt dabei nicht nur aus den Trainingsdaten, sondern auch aus den Ausgaben und dem Verhalten des Lehrermodells.
Der Prozess funktioniert typischerweise so: Das Lehrermodell verarbeitet Eingaben und erzeugt Wahrscheinlichkeitsverteilungen über mögliche Antworten (Soft Labels). Das Schülermodell wird dann trainiert, diese feinen Verteilungen nachzuahmen, statt nur die harten Ja/Nein-Entscheidungen zu kopieren. Dadurch erfasst es auch das „Zwischenwissen" – etwa welche Alternativen das Lehrermodell in Betracht gezogen hat.
Knowledge Distillation ist eine Schlüsseltechnologie für den praktischen KI-Einsatz: Sie ermöglicht es, die Qualität großer Frontier-Modelle in kompakteren Modellen verfügbar zu machen, die schneller, günstiger und auf Endgeräten lauffähig sind. Die Methode wurde 2025 intensiv diskutiert, als chinesische KI-Labore wie DeepSeek beschuldigt wurden, systematisch von US-Frontier-Modellen zu destillieren. Ethisch und rechtlich wirft dies Fragen zu geistigem Eigentum und fairer Nutzung auf.
Verwandte Begriffe
Hyperparameter
Hyperparameter sind Konfigurationsparameter, die vor dem Training eines maschinellen Lernmodells…
LoRA (Low-Rank Adaptation)
Effiziente Fine-Tuning-Methode, die nur einen kleinen Teil der Modellparameter anpasst – ideal für…
Quantisierung
Technik zur Komprimierung von KI-Modellen, bei der die Rechengenauigkeit reduziert wird – für…
Annotation
Im Kontext der künstlichen Intelligenz (KI) bezieht sich Annotation auf den Prozess, bei dem Daten…
Classification
Im Bereich der künstlichen Intelligenz (KI) bezieht sich Klassifikation auf eine Art des…