Word Embeddings

NLP & Sprache Vektoren Grundlagen

Vektorrepräsentationen von Wörtern, bei denen ähnliche Bedeutungen ähnliche Positionen im Vektorraum haben. Grundlage moderner Sprachverarbeitung.

Word Embeddings sind numerische Darstellungen von Wörtern als hochdimensionale Vektoren. Statt Wörter nur als isolierte Symbole zu behandeln, verortet ein Word Embedding jedes Wort in einem geometrischen Raum, in dem semantisch ähnliche Wörter nahe beieinander liegen. Das berühmte Beispiel: Der Vektor "König" minus "Mann" plus "Frau" landet in der Nähe von "Königin".

Historisch wichtige Verfahren zur Erzeugung von Word Embeddings sind Word2Vec (Google), GloVe (Stanford) und FastText (Facebook). Sie lernen Vektoren aus großen Textkorpora, indem sie analysieren, welche Wörter regelmäßig in ähnlichen Kontexten vorkommen.

Word Embeddings haben das Natural Language Processing revolutioniert und sind die Vorläufer der heutigen kontextuellen Embeddings, wie sie BERT, GPT und andere Transformer-Modelle erzeugen. Der Unterschied: Klassische Word Embeddings geben jedem Wort einen festen Vektor, kontextuelle Embeddings passen ihn je nach Satzbedeutung an ("Bank" als Geldinstitut vs. Sitzgelegenheit).

Word Embeddings

Verwandte Begriffe

BPE (Byte-Pair Encoding)

Cosine Similarity

Embedding

Semantisches Embedding

Tokenisierung