Tokenisierung
Der Prozess, bei dem Text in kleinere Einheiten (Tokens) zerlegt wird, bevor er von einem Sprachmodell verarbeitet werden kann – ein fundamentaler Baustein jeder LLM-Anwendung.
Tokenisierung ist der grundlegende Prozess, bei dem Eingabetext in kleinere Einheiten – sogenannte Tokens – zerlegt wird, bevor er von einem Sprachmodell verarbeitet werden kann. Tokens können ganze Wörter, Wortteile, einzelne Zeichen oder sogar Satzzeichen sein. Jedes Sprachmodell hat seinen eigenen Tokenizer, der bestimmt, wie Text aufgeteilt wird.
Ein typischer Tokenizer wie BPE (Byte Pair Encoding) zerlegt häufige Wörter in einzelne Tokens (z. B. „Hund" → 1 Token), während seltene oder zusammengesetzte Wörter in Teilstücke aufgeteilt werden (z. B. „Hundebesitzer" → „Hunde" + „besitzer" = 2 Tokens). Deutsche Texte erzeugen aufgrund ihrer Wortkomposition typischerweise mehr Tokens als englische Texte gleicher Länge.
Das Verständnis von Tokenisierung ist für den KI-Alltag wichtig: Die Anzahl der Tokens bestimmt die Verarbeitungskosten (Abrechnung pro Token), die maximale Textlänge (Kontextfenster) und teils auch die Qualität der Verarbeitung. Häufige Tokens werden besser verarbeitet als seltene. Als Faustregel gilt: Ein Token entspricht etwa 0,75 Wörtern im Englischen bzw. etwa 0,5 bis 0,6 Wörtern im Deutschen. Moderne Tokenizer unterstützen über 100 Sprachen und Sonderzeichen.
Verwandte Begriffe
Kontextfenster (Context Window)
Die maximale Menge an Text (gemessen in Tokens), die ein Sprachmodell gleichzeitig verarbeiten kann…
BERT
Wegweisendes Sprachmodell von Google (2018), das die Verarbeitung natürlicher Sprache durch…
BPE (Byte-Pair Encoding)
Verfahren zur Zerlegung von Text in kleine, häufige Bausteine (Subword-Tokens). Grundlage der…
Chain-of-Thought (CoT)
Technik, bei der KI-Modelle Probleme schrittweise durchdenken, bevor sie antworten – die Grundlage…
Halluzination
Phänomen, bei dem KI-Modelle überzeugend klingende, aber faktisch falsche oder frei erfundene…