Tokenisierung

Der Prozess, bei dem Text in kleinere Einheiten (Tokens) zerlegt wird, bevor er von einem Sprachmodell verarbeitet werden kann – ein fundamentaler Baustein jeder LLM-Anwendung.

Tokenisierung ist der grundlegende Prozess, bei dem Eingabetext in kleinere Einheiten – sogenannte Tokens – zerlegt wird, bevor er von einem Sprachmodell verarbeitet werden kann. Tokens können ganze Wörter, Wortteile, einzelne Zeichen oder sogar Satzzeichen sein. Jedes Sprachmodell hat seinen eigenen Tokenizer, der bestimmt, wie Text aufgeteilt wird.

Ein typischer Tokenizer wie BPE (Byte Pair Encoding) zerlegt häufige Wörter in einzelne Tokens (z. B. „Hund" → 1 Token), während seltene oder zusammengesetzte Wörter in Teilstücke aufgeteilt werden (z. B. „Hundebesitzer" → „Hunde" + „besitzer" = 2 Tokens). Deutsche Texte erzeugen aufgrund ihrer Wortkomposition typischerweise mehr Tokens als englische Texte gleicher Länge.

Das Verständnis von Tokenisierung ist für den KI-Alltag wichtig: Die Anzahl der Tokens bestimmt die Verarbeitungskosten (Abrechnung pro Token), die maximale Textlänge (Kontextfenster) und teils auch die Qualität der Verarbeitung. Häufige Tokens werden besser verarbeitet als seltene. Als Faustregel gilt: Ein Token entspricht etwa 0,75 Wörtern im Englischen bzw. etwa 0,5 bis 0,6 Wörtern im Deutschen. Moderne Tokenizer unterstützen über 100 Sprachen und Sonderzeichen.

Verwandte Begriffe