Quantisierung

KI & ML Effizienz Modelloptimierung On-Device AI

Technik zur Komprimierung von KI-Modellen, bei der die Rechengenauigkeit reduziert wird – für schnellere und speichereffizientere Modelle mit minimalem Qualitätsverlust.

Quantisierung ist eine Optimierungstechnik, bei der die numerische Genauigkeit der Modellgewichte reduziert wird – typischerweise von 32-Bit- oder 16-Bit-Gleitkommazahlen auf 8-Bit- oder sogar 4-Bit-Ganzzahlen. Dadurch wird das Modell deutlich kleiner und schneller, während die Qualität weitgehend erhalten bleibt.

Ein konkretes Beispiel: Ein 70-Milliarden-Parameter-Modell benötigt in voller Präzision (FP16) etwa 140 GB Speicher – weit mehr als die meisten Grafikkarten bieten. Durch 4-Bit-Quantisierung schrumpft der Speicherbedarf auf etwa 35 GB, sodass das Modell auf Consumer-Hardware lauffähig wird. Die Qualitätseinbußen sind bei modernen Quantisierungsmethoden oft überraschend gering.

Quantisierung ist eine Schlüsseltechnologie für die Demokratisierung von KI: Sie ermöglicht es, leistungsstarke Modelle auf normalen PCs, Laptops und sogar Smartphones zu betreiben (On-Device AI). Verbreitete Formate wie GGUF und Methoden wie GPTQ oder AWQ haben sich als Standards etabliert. In Kombination mit Small Language Models und Knowledge Distillation bildet Quantisierung die technische Grundlage dafür, dass KI nicht mehr zwingend teure Cloud-Infrastruktur benötigt.

Quantisierung

Verwandte Begriffe

Knowledge Distillation (Wissensdestillation)

Feature Engineering

Hyperparameter

LoRA (Low-Rank Adaptation)

Small Language Models (SLMs)