Mixture of Experts (MoE)

Deep Learning Architektur Effizienz Sprachmodelle

Modellarchitektur, bei der viele spezialisierte Teilnetzwerke („Experten") vorhanden sind, aber pro Anfrage nur wenige aktiviert werden – für deutlich höhere Effizienz.

Mixture of Experts (MoE) ist eine Architektur für neuronale Netze, bei der ein Modell aus vielen spezialisierten Teilnetzwerken – den sogenannten „Experten" – besteht. Ein Routing-Mechanismus (Gate) entscheidet für jede Eingabe, welche wenigen Experten aktiviert werden. So kann ein Modell enorm viele Parameter besitzen, nutzt aber pro Anfrage nur einen Bruchteil davon.

Der Vorteil ist erheblich: Ein MoE-Modell mit 100 Milliarden Gesamtparametern, das pro Anfrage nur 10 Milliarden aktiviert, liefert die Qualität des großen Modells bei den Rechenkosten des kleineren. Seit Anfang 2025 nutzen über 60 % der neuen Frontier-Modelle MoE-Architekturen, darunter DeepSeek-V3 (256 Experten), Mixtral und Llama 4.

MoE ermöglicht es, Modelle zu bauen, die sowohl leistungsstark als auch wirtschaftlich betreibbar sind. Die Architektur ist besonders relevant für Unternehmen, die Frontier-Qualität benötigen, aber die Inferenzkosten im Griff behalten müssen. Herausforderungen liegen im effizienten Routing, der gleichmäßigen Auslastung der Experten und dem höheren Speicherbedarf, da alle Experten geladen sein müssen.

Mixture of Experts (MoE)

Verwandte Begriffe

RoPE (Rotary Positional Embeddings)

Attention-Mechanismus

Deep Learning

Graph Neural Networks

Kontextfenster (Context Window)