Semantisches Embedding

Ein semantisches Embedding ist eine Darstellung von Daten, bei der Elemente wie Wörter, Bilder, ganze Sätze bzw. Paragraphen oder andere Informationseinheiten so abgebildet werden, dass sich ihre Ähnl...

Semantisches Embedding bezeichnet die Umwandlung von Wörtern, Sätzen, Dokumenten oder anderen Informationseinheiten in lange Zahlenreihen, sogenannte Vektoren. Diese Vektoren sind so aufgebaut, dass inhaltlich ähnliche Inhalte auch zahlenmäßig nahe beieinander liegen. Eine Suchanfrage nach "Rechnung stornieren" landet damit in der gleichen Region des Zahlenraums wie "Beleg zurücknehmen" – obwohl die Worte unterschiedlich sind.

Erzeugt werden semantische Embeddings durch trainierte Sprachmodelle, die aus riesigen Textmengen gelernt haben, welche Begriffe in welchen Zusammenhängen vorkommen. Jedes Embedding besteht typischerweise aus mehreren hundert bis einigen tausend Zahlen, die Bedeutung, Kontext und Beziehungen zu anderen Begriffen verdichten. Über mathematische Abstandsmaße wie die Kosinus-Ähnlichkeit lässt sich dann berechnen, wie verwandt zwei Inhalte sind. Diese Technik bildet die Grundlage für semantische Suche, Empfehlungssysteme, Klassifikation von Texten und vor allem für sogenannte Retrieval-Augmented-Generation-Systeme, bei denen eine KI auf eigene Firmendokumente zugreift.

Für kleine und mittlere Unternehmen wird das Thema vor allem dann interessant, wenn eigene Wissensbestände durchsuchbar gemacht werden sollen. Wer Handbücher, Angebote, Wartungsprotokolle oder E-Mail-Verläufe in eine sogenannte Vektordatenbank überführt, kann Mitarbeitende oder Kunden über einen Chatbot Fragen in normaler Sprache stellen lassen – und erhält Antworten, die auf den tatsächlichen Inhalten beruhen, nicht auf reinen Schlagwörtern. Auch im Onlinehandel sorgen Embeddings dafür, dass Produktsuchen funktionieren, selbst wenn Kunden nicht die exakte Produktbezeichnung verwenden. Anbieter wie OpenAI, Cohere, Voyage oder europäische Alternativen stellen fertige Embedding-Modelle bereit, die sich ohne tiefes KI-Wissen einbinden lassen.

Die Chancen liegen in deutlich treffenderen Such- und Assistenzsystemen, die Grenzen in der Qualität der zugrundeliegenden Daten und der Modellwahl: Ein Embedding-Modell, das vor allem auf englischen Texten trainiert wurde, liefert bei deutschen Fachbegriffen oft schlechtere Ergebnisse. Verwandt sind Begriffe wie Vektordatenbank, semantische Suche und Tokenisierung.

Verwandte Begriffe