Attention-Mechanismus
Technik, die einem neuronalen Netz erlaubt, sich bei der Verarbeitung auf die jeweils relevantesten Teile einer Eingabe zu konzentrieren. Sie ist das Herzstück moderner Transformer-Modelle.
Der Attention-Mechanismus (Aufmerksamkeitsmechanismus) ist eines der einflussreichsten Konzepte der modernen KI. Statt eine Eingabe Wort für Wort starr von links nach rechts zu verarbeiten, gewichtet ein Modell mit Attention jedes Eingabeelement im Kontext aller anderen. So kann es entscheiden, welche Teile eines Satzes oder Bildes für die aktuelle Vorhersage am wichtigsten sind.
Das Prinzip wurde durch das Paper "Attention is All You Need" (2017) populär und bildet die Grundlage der Transformer-Architektur, die heute hinter Modellen wie GPT, Claude oder Gemini steckt. Bei der sogenannten Self-Attention berechnet das Modell für jedes Token Beziehungen zu allen anderen Tokens des Kontexts und erzeugt daraus eine gewichtete Repräsentation.
In der Praxis erlaubt Attention Sprachmodellen, weit auseinanderliegende Bezüge in einem Text zu erkennen, etwa wer mit "er" oder "sie" gemeint ist, oder welche Information aus einem langen Dokument gerade relevant ist. Auch in Computer Vision (Vision Transformer) und bei multimodalen Modellen ist Attention der zentrale Baustein.
Verwandte Begriffe
RoPE (Rotary Positional Embeddings)
Technik in Sprachmodellen, die Positionsinformationen von Wörtern im Text durch Rotationsmatrizen…
Deep Learning
Deep Learning ist ein Teilbereich des maschinellen Lernens, der auf künstlichen neuronalen Netzen…
Graph Neural Networks
Spezielle neuronale Netze, die auf graph-strukturierten Daten arbeiten, etwa sozialen Netzwerken,…
Künstliche Neuronale Netze
Künstliche Neuronale Netze sind Rechenmodelle, die von der Struktur und Funktion biologischer…
Mixture of Experts (MoE)
Modellarchitektur, bei der viele spezialisierte Teilnetzwerke („Experten") vorhanden sind, aber pro…