Cosine Similarity
Mathematisches Maß für die Ähnlichkeit zweier Vektoren, Standardverfahren in semantischer Suche und Empfehlungssystemen.
Cosine Similarity (Kosinusähnlichkeit) ist ein einfaches, aber extrem nützliches Maß, um die inhaltliche Ähnlichkeit zweier hochdimensionaler Vektoren zu bestimmen. Statt den Abstand zwischen ihnen zu messen, betrachtet sie den Winkel: Zwei Vektoren, die in dieselbe Richtung zeigen, gelten als sehr ähnlich, unabhängig davon, wie lang sie sind.
Mathematisch ergibt Cosine Similarity einen Wert zwischen -1 und 1. 1 bedeutet "identische Richtung" (maximale Ähnlichkeit), 0 "keine Beziehung" und -1 "entgegengesetzte Richtung". In vielen KI-Anwendungen, etwa Textembeddings, sind Werte meist zwischen 0 und 1, da Embedding-Vektoren typischerweise im positiven Bereich liegen.
In der Praxis ist Cosine Similarity das Standardwerkzeug für semantische Suche, Vektordatenbanken, Empfehlungssysteme, Duplikat-Erkennung und Clustering. Wenn etwa eine Vektordatenbank "die ähnlichsten 5 Dokumente zu einer Anfrage" zurückgibt, vergleicht sie unter der Haube fast immer Embedding-Vektoren über Cosine Similarity, meist optimiert durch Indexverfahren wie HNSW.
Verwandte Begriffe
Vektordatenbank
Eine Vektordatenbank ist eine Datenbank, welche Vektoren als Datentyp speichern kann und besonders…
Word Embeddings
Vektorrepräsentationen von Wörtern, bei denen ähnliche Bedeutungen ähnliche Positionen im…
AI (Artificial Intelligence)
Englischsprachige Abkürzung für Künstliche Intelligenz. Ein Bereich der Informatik, der sich mit…
Algorithmus
In der Informatik ist ein Algorithmus eine genaue Berechnungsvorschrift zur Lösung einer Aufgabe.…
Annotation
Im Kontext der künstlichen Intelligenz (KI) bezieht sich Annotation auf den Prozess, bei dem Daten…