BPE (Byte-Pair Encoding)
Verfahren zur Zerlegung von Text in kleine, häufige Bausteine (Subword-Tokens). Grundlage der Tokenisierung in den meisten modernen Sprachmodellen.
Byte-Pair Encoding (BPE) ist ein Tokenisierungsverfahren, das Text nicht in komplette Wörter, sondern in häufige Zeichenfolgen ("Subword-Tokens") zerlegt. Ursprünglich aus der Datenkomprimierung stammend, wurde BPE für die Sprachverarbeitung adaptiert und ist heute Grundlage der Tokenizer praktisch aller großen Sprachmodelle, von GPT bis Llama.
Das Verfahren startet mit einem Vokabular aus einzelnen Zeichen und verschmilzt iterativ die häufigsten Paare zu neuen Tokens. So entsteht ein Vokabular, das häufige Wörter ganz enthält ("the", "und"), seltenere Wörter dagegen in sinnvolle Bausteine zerlegt ("unbe", "kannt"). Das löst elegant das Problem unbekannter Wörter und ermöglicht es, beliebige Sprachen, Eigennamen oder Code mit einem festen Vokabular abzudecken.
Praktische Konsequenzen: Längen-Limits von LLMs werden in Tokens gemessen, nicht in Wörtern und der Tokenizer wirkt sich direkt auf Performance und Kosten aus. Englischer Text braucht im Durchschnitt etwa 1,3 Tokens pro Wort, deutsche Texte oft 1,5–2, asiatische Sprachen deutlich mehr. Effiziente Tokenizer (etwa der von GPT-4o) reduzieren diese Token-Inflation spürbar.
Verwandte Begriffe
Tokenisierung
Der Prozess, bei dem Text in kleinere Einheiten (Tokens) zerlegt wird, bevor er von einem…
Word Embeddings
Vektorrepräsentationen von Wörtern, bei denen ähnliche Bedeutungen ähnliche Positionen im…
AI (Artificial Intelligence)
Englischsprachige Abkürzung für Künstliche Intelligenz. Ein Bereich der Informatik, der sich mit…
Algorithmus
In der Informatik ist ein Algorithmus eine genaue Berechnungsvorschrift zur Lösung einer Aufgabe.…
BERT
Wegweisendes Sprachmodell von Google (2018), das die Verarbeitung natürlicher Sprache durch…