- Veröffentlicht am
- • How2-Tipps
Semantische Suche mit Qdrant: Ähnlichkeit und Filter richtig kombinieren
- Autor
-
-
- Benutzer
- tmueller
- Beiträge dieses Autors
- Beiträge dieses Autors
-
Viele sehen Qdrant zum ersten Mal in Aktion, führen eine Ähnlichkeitssuche aus – und sind beeindruckt. Doch der eigentliche Qualitätssprung passiert erst dann, wenn semantische Suche und Filterlogik zusammenkommen.
Denn in realen Anwendungen lautet die Frage fast nie:
„Was ist irgendwie ähnlich?“
Sondern:
„Was ist inhaltlich passend – unter bestimmten Bedingungen?“
Genau hier spielt Qdrant seine größte Stärke aus.
Ähnlichkeit + Metadatenfilter: zwei Welten, ein Ergebnis
Die semantische Suche beantwortet die Frage:
- Welche Inhalte sind inhaltlich ähnlich?
Filter beantworten die Frage:
- Welche Inhalte darf ich überhaupt berücksichtigen?
In Qdrant werden beide Ebenen gleichzeitig genutzt.
Das bedeutet:
- Der Suchraum wird durch Filter eingeschränkt
- Innerhalb dieses Raums findet die Vektorsuche statt
Das ist kein nachträgliches „Aussortieren“, sondern eine gezielte Fokussierung.
Typische Filter: Zeit, Domain, Quelle
In der Praxis tauchen fast immer ähnliche Filteranforderungen auf.
Zeitfilter
- nur Inhalte der letzten 30 Tage
- nur Dokumente nach einem Stichtag
- nur aktuelle Versionen
Zeitfilter verhindern, dass veraltete Inhalte semantisch „gewinnen“, nur weil sie ähnlich formuliert sind.
Domains & Quellen
- nur bestimmte Webseiten
- nur interne Dokumente
- nur geprüfte Quellen
Gerade bei Mischbeständen (Web + intern + Archiv) ist das entscheidend für Vertrauen und Relevanz.
Weitere häufige Filter
- Mandant / Organisation
- Sprache
- Dokumenttyp
- Kategorie
All diese Informationen gehören in die Payloads – nicht in den Text.
Score verstehen: was bedeutet der Wert eigentlich?
Qdrant liefert zu jedem Treffer einen Score. Dieser Score beschreibt die Ähnlichkeit zwischen Suchvektor und Ergebnisvektor.
Wichtig:
- der Score ist kein Prozentwert
- er ist kein Qualitätsurteil
- er ist relativ, nicht absolut
Ein höherer Score bedeutet:
„Dieser Vektor liegt näher am Suchvektor als die anderen.“
Nicht mehr – aber auch nicht weniger.
Warum kommt DAS Ergebnis zuerst?
Diese Frage taucht garantiert auf. Immer.
Die Antwort ist fast nie magisch, sondern logisch erklärbar:
Semantische Nähe Das Ergebnis drückt denselben Gedanken aus – vielleicht mit anderen Worten.
Filterwirkung Andere, eigentlich passende Inhalte wurden ausgeschlossen (z. B. falsche Quelle, falsches Datum).
Chunking-Effekt Ein kleiner, präziser Chunk schlägt oft ein großes, unscharfes Dokument.
Embedding-Charakteristik Das Modell bewertet bestimmte Formulierungen als näher am Suchkonzept.
Das Ergebnis fühlt sich manchmal überraschend an – ist aber selten zufällig.
Typische Fehlinterpretationen
Ein paar Klassiker, die regelmäßig zu Verwirrung führen:
„Warum ist der Score so niedrig?“ → Scores sind nur im Vergleich sinnvoll.
„Warum fehlt ein offensichtlicher Treffer?“ → Meist greift ein Filter oder der Text wurde anders gechunkt.
„Warum ist das Ergebnis so kurz?“ → Kurze, klare Aussagen sind semantisch oft stärker.
Wer diese Mechanismen versteht, hört auf, Qdrant zu misstrauen – und beginnt, es gezielt zu steuern.
Der entscheidende Perspektivwechsel
Semantische Suche ist kein Ranking wie bei Google. Sie ist eine Ähnlichkeitsmessung im Bedeutungsraum.
Filter sorgen dafür, dass dieser Bedeutungsraum:
- relevant bleibt
- vertrauenswürdig ist
- zum Nutzungskontext passt
Erst die Kombination macht aus einer Demo ein Produkt.
Praxisregel für produktive Systeme
Wenn du dich fragst:
„Warum sind die Ergebnisse nicht gut genug?“
prüfe in dieser Reihenfolge:
- Chunking
- Embeddings
- Filterlogik
- Score-Interpretation
In 90 % der Fälle liegt hier die Ursache – nicht in Qdrant selbst.
Die Kombination aus:
- semantischer Ähnlichkeit
- strukturierten Filtern
- bewusster Score-Interpretation
macht Qdrant zu dem, was klassische Suchsysteme nie waren: kontextsensitiv, erklärbar und steuerbar.