RoPE (Rotary Positional Embeddings)
Technik in Sprachmodellen, die Positionsinformationen von Wörtern im Text durch Rotationsmatrizen kodiert, um Bedeutungszusammenhänge präzise zu erfassen.
RoPE (Rotary Positional Embeddings) ist eine fortgeschrittene Technik in der Architektur moderner Sprachmodelle, die dafür sorgt, dass das Modell die Position und Reihenfolge von Wörtern (Tokens) im Text versteht. Da Transformer-Modelle von sich aus keine Information über die Wortposition haben, ist eine Positionskodierung essenziell für das Sprachverständnis.
RoPE kodiert Positionsinformationen durch Rotationsmatrizen im hochdimensionalen Vektorraum. Der entscheidende Vorteil gegenüber älteren Methoden (wie absoluten oder erlernten Positionskodierungen) liegt darin, dass RoPE relative Positionsbeziehungen zwischen Tokens direkt in den Aufmerksamkeitsmechanismus (Attention) einbettet. Dadurch kann das Modell natürlich erfassen, wie weit zwei Wörter voneinander entfernt sind, unabhängig von ihrer absoluten Position im Text.
RoPE wird in zahlreichen modernen LLMs eingesetzt, darunter LLaMA, PaLM und viele Open-Source-Modelle. Ein besonderer Vorteil ist die Skalierbarkeit: Durch Erweiterungen wie YaRN oder NTK-aware Scaling können RoPE-basierte Modelle auf deutlich längere Texte angewendet werden als ursprünglich trainiert, was die effektive Kontextlänge erheblich erweitert.
Verwandte Begriffe
Attention-Mechanismus
Technik, die einem neuronalen Netz erlaubt, sich bei der Verarbeitung auf die jeweils relevantesten…
Mixture of Experts (MoE)
Modellarchitektur, bei der viele spezialisierte Teilnetzwerke („Experten") vorhanden sind, aber pro…
Deep Learning
Deep Learning ist ein Teilbereich des maschinellen Lernens, der auf künstlichen neuronalen Netzen…
Graph Neural Networks
Spezielle neuronale Netze, die auf graph-strukturierten Daten arbeiten, etwa sozialen Netzwerken,…
Kontextfenster (Context Window)
Die maximale Menge an Text (gemessen in Tokens), die ein Sprachmodell gleichzeitig verarbeiten kann…