Attention-Mechanismus

Deep Learning Architektur Transformer

Technik, die einem neuronalen Netz erlaubt, sich bei der Verarbeitung auf die jeweils relevantesten Teile einer Eingabe zu konzentrieren. Sie ist das Herzstück moderner Transformer-Modelle.

Der Attention-Mechanismus (Aufmerksamkeitsmechanismus) ist eines der einflussreichsten Konzepte der modernen KI. Statt eine Eingabe Wort für Wort starr von links nach rechts zu verarbeiten, gewichtet ein Modell mit Attention jedes Eingabeelement im Kontext aller anderen. So kann es entscheiden, welche Teile eines Satzes oder Bildes für die aktuelle Vorhersage am wichtigsten sind.

Das Prinzip wurde durch das Paper "Attention is All You Need" (2017) populär und bildet die Grundlage der Transformer-Architektur, die heute hinter Modellen wie GPT, Claude oder Gemini steckt. Bei der sogenannten Self-Attention berechnet das Modell für jedes Token Beziehungen zu allen anderen Tokens des Kontexts und erzeugt daraus eine gewichtete Repräsentation.

In der Praxis erlaubt Attention Sprachmodellen, weit auseinanderliegende Bezüge in einem Text zu erkennen, etwa wer mit "er" oder "sie" gemeint ist, oder welche Information aus einem langen Dokument gerade relevant ist. Auch in Computer Vision (Vision Transformer) und bei multimodalen Modellen ist Attention der zentrale Baustein.

Attention-Mechanismus

Verwandte Begriffe

RoPE (Rotary Positional Embeddings)

Deep Learning

Graph Neural Networks

Künstliche Neuronale Netze

Mixture of Experts (MoE)