BPE (Byte-Pair Encoding)

NLP & Sprache Tokenisierung Grundlagen

Verfahren zur Zerlegung von Text in kleine, häufige Bausteine (Subword-Tokens). Grundlage der Tokenisierung in den meisten modernen Sprachmodellen.

Byte-Pair Encoding (BPE) ist ein Tokenisierungsverfahren, das Text nicht in komplette Wörter, sondern in häufige Zeichenfolgen ("Subword-Tokens") zerlegt. Ursprünglich aus der Datenkomprimierung stammend, wurde BPE für die Sprachverarbeitung adaptiert und ist heute Grundlage der Tokenizer praktisch aller großen Sprachmodelle, von GPT bis Llama.

Das Verfahren startet mit einem Vokabular aus einzelnen Zeichen und verschmilzt iterativ die häufigsten Paare zu neuen Tokens. So entsteht ein Vokabular, das häufige Wörter ganz enthält ("the", "und"), seltenere Wörter dagegen in sinnvolle Bausteine zerlegt ("unbe", "kannt"). Das löst elegant das Problem unbekannter Wörter und ermöglicht es, beliebige Sprachen, Eigennamen oder Code mit einem festen Vokabular abzudecken.

Praktische Konsequenzen: Längen-Limits von LLMs werden in Tokens gemessen, nicht in Wörtern und der Tokenizer wirkt sich direkt auf Performance und Kosten aus. Englischer Text braucht im Durchschnitt etwa 1,3 Tokens pro Wort, deutsche Texte oft 1,5–2, asiatische Sprachen deutlich mehr. Effiziente Tokenizer (etwa der von GPT-4o) reduzieren diese Token-Inflation spürbar.

BPE (Byte-Pair Encoding)

Verwandte Begriffe

Tokenisierung

Word Embeddings

AI (Artificial Intelligence)

Algorithmus

BERT