Knowledge Distillation (Wissensdestillation)

Verfahren, bei dem ein kleines „Schüler"-Modell trainiert wird, die Fähigkeiten eines großen „Lehrer"-Modells nachzuahmen – für effizientere KI ohne großen Qualitätsverlust.

Knowledge Distillation (Wissensdestillation) ist ein Trainingsverfahren, bei dem das Wissen eines großen, leistungsstarken „Lehrer"-Modells auf ein deutlich kleineres „Schüler"-Modell übertragen wird. Das Schüler-Modell lernt dabei nicht nur aus den Trainingsdaten, sondern auch aus den Ausgaben und dem Verhalten des Lehrermodells.

Der Prozess funktioniert typischerweise so: Das Lehrermodell verarbeitet Eingaben und erzeugt Wahrscheinlichkeitsverteilungen über mögliche Antworten (Soft Labels). Das Schülermodell wird dann trainiert, diese feinen Verteilungen nachzuahmen, statt nur die harten Ja/Nein-Entscheidungen zu kopieren. Dadurch erfasst es auch das „Zwischenwissen" – etwa welche Alternativen das Lehrermodell in Betracht gezogen hat.

Knowledge Distillation ist eine Schlüsseltechnologie für den praktischen KI-Einsatz: Sie ermöglicht es, die Qualität großer Frontier-Modelle in kompakteren Modellen verfügbar zu machen, die schneller, günstiger und auf Endgeräten lauffähig sind. Die Methode wurde 2025 intensiv diskutiert, als chinesische KI-Labore wie DeepSeek beschuldigt wurden, systematisch von US-Frontier-Modellen zu destillieren. Ethisch und rechtlich wirft dies Fragen zu geistigem Eigentum und fairer Nutzung auf.

Verwandte Begriffe