Word Embeddings
Vektorrepräsentationen von Wörtern, bei denen ähnliche Bedeutungen ähnliche Positionen im Vektorraum haben. Grundlage moderner Sprachverarbeitung.
Word Embeddings sind numerische Darstellungen von Wörtern als hochdimensionale Vektoren. Statt Wörter nur als isolierte Symbole zu behandeln, verortet ein Word Embedding jedes Wort in einem geometrischen Raum, in dem semantisch ähnliche Wörter nahe beieinander liegen. Das berühmte Beispiel: Der Vektor "König" minus "Mann" plus "Frau" landet in der Nähe von "Königin".
Historisch wichtige Verfahren zur Erzeugung von Word Embeddings sind Word2Vec (Google), GloVe (Stanford) und FastText (Facebook). Sie lernen Vektoren aus großen Textkorpora, indem sie analysieren, welche Wörter regelmäßig in ähnlichen Kontexten vorkommen.
Word Embeddings haben das Natural Language Processing revolutioniert und sind die Vorläufer der heutigen kontextuellen Embeddings, wie sie BERT, GPT und andere Transformer-Modelle erzeugen. Der Unterschied: Klassische Word Embeddings geben jedem Wort einen festen Vektor, kontextuelle Embeddings passen ihn je nach Satzbedeutung an ("Bank" als Geldinstitut vs. Sitzgelegenheit).
Verwandte Begriffe
BPE (Byte-Pair Encoding)
Verfahren zur Zerlegung von Text in kleine, häufige Bausteine (Subword-Tokens). Grundlage der…
Cosine Similarity
Mathematisches Maß für die Ähnlichkeit zweier Vektoren, Standardverfahren in semantischer Suche und…
Embedding
Embedding im Kontext der künstlichen Intelligenz (KI) und Large Language Models (LLMs) bezieht sich…
Semantisches Embedding
Ein semantisches Embedding ist eine Darstellung von Daten, bei der Elemente wie Wörter, Bilder,…
Tokenisierung
Der Prozess, bei dem Text in kleinere Einheiten (Tokens) zerlegt wird, bevor er von einem…