Flash Attention

Hochoptimierte Implementierung des Attention-Mechanismus, die Sprachmodelle deutlich schneller und speichereffizienter macht, ohne die Qualität zu verändern.

Flash Attention ist eine 2022 von Tri Dao und Kolleg:innen veröffentlichte Implementierung des Attention-Mechanismus, die das Standardverfahren in modernen Transformer-Architekturen weitgehend ersetzt hat. Das Ergebnis: Sprachmodelle trainieren und inferieren deutlich schneller und brauchen erheblich weniger GPU-Speicher, ohne dass sich die mathematischen Ergebnisse ändern.

Der Trick liegt in einer hardware-bewussten Implementierung: Statt Zwischenergebnisse in den vergleichsweise langsamen GPU-Speicher (HBM) zu schreiben, hält Flash Attention sie in den sehr schnellen SRAM-Caches und verarbeitet Blöcke mit clever organisierten Berechnungen. Das macht den Mechanismus IO-effizient, der Engpass moderner GPUs liegt in der Speicherbandbreite, nicht in der Rechenkapazität.

Inzwischen ist Flash Attention in der dritten Generation (Flash Attention 3) verfügbar, hochoptimiert für moderne NVIDIA-Architekturen wie Hopper und Blackwell, und ist Bestandteil praktisch aller großen LLM-Trainings- und Inferenz-Frameworks (PyTorch, vLLM, TensorRT-LLM). Für Unternehmen, die eigene LLMs trainieren oder hosten, ist Flash Attention ein zentraler Effizienzhebel.

Verwandte Begriffe