Speculative Decoding

Effizienz Performance Sprachmodelle

Beschleunigungstechnik für die Token-Generierung in Sprachmodellen: Ein kleines, schnelles Modell schlägt Tokens vor, das große Modell bestätigt oder korrigiert.

Speculative Decoding (spekulatives Dekodieren) ist eine Technik, mit der die Antwortgeschwindigkeit großer Sprachmodelle deutlich gesteigert werden kann, ohne deren Qualität zu beeinträchtigen. Die Grundidee: Ein kleines, schnelles "Draft-Modell" sagt mehrere mögliche Tokens vorab voraus, und das große, präzise Zielmodell überprüft sie in einem einzigen, parallelen Schritt.

Stimmt das große Modell mit den Vorschlägen des kleinen überein, werden alle akzeptierten Tokens auf einmal übernommen, sonst übernimmt das große Modell ab dem ersten Abweichungspunkt selbst. Mathematisch ist das Ergebnis identisch zur normalen Token-für-Token-Generierung, im Schnitt aber zwei- bis dreimal schneller.

Speculative Decoding ist mittlerweile in vielen produktiven LLM-Systemen Standard und wird kontinuierlich weiterentwickelt (Medusa, EAGLE, Lookahead Decoding). In Kombination mit anderen Optimierungen wie KV-Cache, Flash Attention oder Quantisierung ist es ein wichtiger Hebel, um Latenz zu senken und Kosten pro Anfrage zu reduzieren, insbesondere bei Reasoning-Modellen mit besonders langen Antwortketten.

Speculative Decoding

Verwandte Begriffe

Flash Attention

KV-Cache

LoRA (Low-Rank Adaptation)

Mixture of Experts (MoE)

Small Language Models (SLMs)