Vektordatenbank

Eine Vektordatenbank ist eine Datenbank, welche Vektoren als Datentyp speichern kann und besonders schnell "andere Vektoren in der Nähe von einem Suchvektor"-Suchen durchführen kann. Wenn man in Embed...

Eine Vektordatenbank ist ein spezialisiertes Datenbanksystem, das nicht klassische Tabellen mit Zahlen und Texten verwaltet, sondern sogenannte Vektoren — also lange Zahlenreihen, die die Bedeutung eines Inhalts mathematisch abbilden. Diese Zahlenreihen, auch Embeddings genannt, entstehen, wenn ein KI-Modell einen Text, ein Bild oder ein Audiosignal in eine numerische Form uebersetzt. Inhalte mit aehnlicher Bedeutung erhalten dabei aehnliche Vektoren.

Die Hauptaufgabe einer Vektordatenbank ist die schnelle Suche nach Aehnlichkeit. Statt nach exakten Stichworten zu filtern, berechnet sie, welche gespeicherten Vektoren einem Suchvektor mathematisch am naechsten liegen. Auf diese Weise lassen sich Dokumente, Produkte oder Bilder finden, die inhaltlich zusammenpassen, auch wenn sie nicht denselben Wortlaut haben. Bekannte Systeme in diesem Bereich sind Pinecone, Weaviate, Qdrant, Milvus oder die Erweiterung pgvector fuer PostgreSQL. Eingesetzt werden sie unter anderem in semantischen Suchmaschinen, Empfehlungssystemen und vor allem als Wissensspeicher fuer Sprachmodelle im Verfahren der sogenannten Retrieval Augmented Generation (RAG).

Fuer kleine und mittlere Unternehmen wird die Vektordatenbank vor allem dann interessant, wenn eigene Inhalte mit einer KI nutzbar gemacht werden sollen. Ein typisches Beispiel ist ein Chatbot, der Fragen zu internen Handbuechern, Angebotsvorlagen, Vertraegen oder Produktdaten beantwortet. Damit das Sprachmodell auf diese firmeneigenen Informationen zugreifen kann, werden die Dokumente in Vektoren zerlegt und in einer Vektordatenbank abgelegt. Bei jeder Anfrage sucht das System die passenden Textstellen heraus und uebergibt sie der KI als Kontext. Auch eine semantische Produktsuche im Onlineshop oder ein intelligentes Ticket-Routing im Kundenservice laesst sich auf diese Weise umsetzen.

Die Chancen liegen in deutlich besseren Suchergebnissen und der Moeglichkeit, eigenes Firmenwissen mit aktueller KI zu verbinden, ohne ein Modell selbst trainieren zu muessen. Grenzen ergeben sich aus der Qualitaet der Embeddings, dem Aufwand fuer die laufende Pflege der Daten sowie aus Datenschutzfragen, wenn sensible Inhalte verarbeitet werden.

Verwandte Begriffe