Cosine Similarity

Daten & Analytics Vektoren Grundlagen

Mathematisches Maß für die Ähnlichkeit zweier Vektoren, Standardverfahren in semantischer Suche und Empfehlungssystemen.

Cosine Similarity (Kosinusähnlichkeit) ist ein einfaches, aber extrem nützliches Maß, um die inhaltliche Ähnlichkeit zweier hochdimensionaler Vektoren zu bestimmen. Statt den Abstand zwischen ihnen zu messen, betrachtet sie den Winkel: Zwei Vektoren, die in dieselbe Richtung zeigen, gelten als sehr ähnlich, unabhängig davon, wie lang sie sind.

Mathematisch ergibt Cosine Similarity einen Wert zwischen -1 und 1. 1 bedeutet "identische Richtung" (maximale Ähnlichkeit), 0 "keine Beziehung" und -1 "entgegengesetzte Richtung". In vielen KI-Anwendungen, etwa Textembeddings, sind Werte meist zwischen 0 und 1, da Embedding-Vektoren typischerweise im positiven Bereich liegen.

In der Praxis ist Cosine Similarity das Standardwerkzeug für semantische Suche, Vektordatenbanken, Empfehlungssysteme, Duplikat-Erkennung und Clustering. Wenn etwa eine Vektordatenbank "die ähnlichsten 5 Dokumente zu einer Anfrage" zurückgibt, vergleicht sie unter der Haube fast immer Embedding-Vektoren über Cosine Similarity, meist optimiert durch Indexverfahren wie HNSW.

Cosine Similarity

Verwandte Begriffe

Vektordatenbank

Word Embeddings

AI (Artificial Intelligence)

Algorithmus

Annotation