Speculative Decoding
Beschleunigungstechnik für die Token-Generierung in Sprachmodellen: Ein kleines, schnelles Modell schlägt Tokens vor, das große Modell bestätigt oder korrigiert.
Speculative Decoding (spekulatives Dekodieren) ist eine Technik, mit der die Antwortgeschwindigkeit großer Sprachmodelle deutlich gesteigert werden kann, ohne deren Qualität zu beeinträchtigen. Die Grundidee: Ein kleines, schnelles "Draft-Modell" sagt mehrere mögliche Tokens vorab voraus, und das große, präzise Zielmodell überprüft sie in einem einzigen, parallelen Schritt.
Stimmt das große Modell mit den Vorschlägen des kleinen überein, werden alle akzeptierten Tokens auf einmal übernommen, sonst übernimmt das große Modell ab dem ersten Abweichungspunkt selbst. Mathematisch ist das Ergebnis identisch zur normalen Token-für-Token-Generierung, im Schnitt aber zwei- bis dreimal schneller.
Speculative Decoding ist mittlerweile in vielen produktiven LLM-Systemen Standard und wird kontinuierlich weiterentwickelt (Medusa, EAGLE, Lookahead Decoding). In Kombination mit anderen Optimierungen wie KV-Cache, Flash Attention oder Quantisierung ist es ein wichtiger Hebel, um Latenz zu senken und Kosten pro Anfrage zu reduzieren, insbesondere bei Reasoning-Modellen mit besonders langen Antwortketten.
Verwandte Begriffe
Flash Attention
Hochoptimierte Implementierung des Attention-Mechanismus, die Sprachmodelle deutlich schneller und…
KV-Cache
Speichermechanismus in Sprachmodellen, der schon berechnete Aufmerksamkeits-Werte zwischenspeichert…
LoRA (Low-Rank Adaptation)
Effiziente Fine-Tuning-Methode, die nur einen kleinen Teil der Modellparameter anpasst – ideal für…
Mixture of Experts (MoE)
Modellarchitektur, bei der viele spezialisierte Teilnetzwerke („Experten") vorhanden sind, aber pro…
Small Language Models (SLMs)
Kompakte Sprachmodelle mit 1–7 Milliarden Parametern, die effizient auf Endgeräten laufen können…