Quantisierung
Technik zur Komprimierung von KI-Modellen, bei der die Rechengenauigkeit reduziert wird – für schnellere und speichereffizientere Modelle mit minimalem Qualitätsverlust.
Quantisierung ist eine Optimierungstechnik, bei der die numerische Genauigkeit der Modellgewichte reduziert wird – typischerweise von 32-Bit- oder 16-Bit-Gleitkommazahlen auf 8-Bit- oder sogar 4-Bit-Ganzzahlen. Dadurch wird das Modell deutlich kleiner und schneller, während die Qualität weitgehend erhalten bleibt.
Ein konkretes Beispiel: Ein 70-Milliarden-Parameter-Modell benötigt in voller Präzision (FP16) etwa 140 GB Speicher – weit mehr als die meisten Grafikkarten bieten. Durch 4-Bit-Quantisierung schrumpft der Speicherbedarf auf etwa 35 GB, sodass das Modell auf Consumer-Hardware lauffähig wird. Die Qualitätseinbußen sind bei modernen Quantisierungsmethoden oft überraschend gering.
Quantisierung ist eine Schlüsseltechnologie für die Demokratisierung von KI: Sie ermöglicht es, leistungsstarke Modelle auf normalen PCs, Laptops und sogar Smartphones zu betreiben (On-Device AI). Verbreitete Formate wie GGUF und Methoden wie GPTQ oder AWQ haben sich als Standards etabliert. In Kombination mit Small Language Models und Knowledge Distillation bildet Quantisierung die technische Grundlage dafür, dass KI nicht mehr zwingend teure Cloud-Infrastruktur benötigt.
Verwandte Begriffe
Knowledge Distillation (Wissensdestillation)
Verfahren, bei dem ein kleines „Schüler"-Modell trainiert wird, die Fähigkeiten eines großen…
Feature Engineering
Feature Engineering ist der Prozess der Auswahl, Transformation und Erstellung von Merkmalen…
Hyperparameter
Hyperparameter sind Konfigurationsparameter, die vor dem Training eines maschinellen Lernmodells…
LoRA (Low-Rank Adaptation)
Effiziente Fine-Tuning-Methode, die nur einen kleinen Teil der Modellparameter anpasst – ideal für…
Small Language Models (SLMs)
Kompakte Sprachmodelle mit 1–7 Milliarden Parametern, die effizient auf Endgeräten laufen können…