KI-Glossar

Vector Database

Vektordatenbanken speichern Embeddings und ermoeglichen blitzschnelle Aehnlichkeitssuche. Sie sind die technische Grundlage fuer RAG-Systeme, semantische Suche und Empfehlungssysteme.

Vector Databases (Vektordatenbanken) sind spezialisierte Datenbanken, die fuer die Speicherung und Suche von Embedding-Vektoren optimiert sind. Waehrend klassische Datenbanken nach exakten Werten suchen, finden Vektordatenbanken semantisch aehnliche Inhalte in Millisekunden.

Der Unterschied zu klassischen Datenbanken

SQL-Datenbank: "Finde alle Dokumente mit dem Wort 'Kuendigung'" - nur exakte Treffer.

Vektordatenbank: "Finde alle Dokumente, die inhaltlich mit 'Vertragsbeendigung' zu tun haben" - auch Synonyme, Umschreibungen und verwandte Themen.

Das funktioniert, weil Texte als Embeddings gespeichert werden und die Suche per Aehnlichkeitsmass (Cosine Similarity, Dot Product) laeuft.

Die wichtigsten Vektordatenbanken

Pinecone: Fully-managed, serverless. Sehr einfach zu starten, skaliert automatisch. Gut fuer Teams ohne DevOps-Kapazitaet.

Weaviate: Open Source, unterstuetzt Hybrid Search (Keyword + Semantic gleichzeitig). Kann selbst gehostet oder als Cloud-Service genutzt werden.

Qdrant: Open Source, in Rust geschrieben, sehr performant. Gute Filterfunktionen fuer Metadaten.

Chroma: Leichtgewichtig, ideal fuer Prototypen und lokale Entwicklung. Einfachste API.

pgvector: PostgreSQL-Extension. Perfekt wenn Sie bereits PostgreSQL nutzen und keinen separaten Service betreiben wollen.

Wann welche Datenbank?

Fuer den Einstieg und Prototypen: Chroma oder pgvector. Kein separater Service noetig, schneller Start.

Fuer Produktion mit wenig Ops-Aufwand: Pinecone. Managed Service, kein Infrastruktur-Management.

Fuer maximale Kontrolle und Performance: Qdrant oder Weaviate selbst gehostet. Volle Kontrolle ueber Daten und Konfiguration.

Fuer Hybrid Search: Weaviate. Kombiniert semantische und Keyword-Suche in einer Anfrage.

Architektur-Entscheidungen

Bei der Wahl einer Vektordatenbank sind drei Faktoren entscheidend:

Datenmenge: Bis 100k Dokumente reicht fast jede Loesung. Ab 1M+ Dokumenten werden Performance-Unterschiede sichtbar.

Datensouveraenitaet: Muessen die Daten in der EU bleiben? Dann kommen nur Self-Hosting oder EU-basierte Cloud-Anbieter in Frage.

Integration: Wie gut passt die Datenbank in den bestehenden Stack? pgvector ist ideal fuer PostgreSQL-Nutzer, Pinecone fuer Serverless-Architekturen.

Typische Anwendungen

RAG-SystemeSemantische SucheEmpfehlungssystemeAnomalie-Erkennung

Verwandte Begriffe

Vector fuer Ihr Unternehmen?

Lassen Sie uns besprechen, wie Vector in Ihrem konkreten Kontext Mehrwert liefern kann.

Erstberatung buchen