Embeddings richtig erzeugen: Texte vorbereiten für Qdrant

Bis hierhin ist klar, wie Qdrant Daten speichert. Ab jetzt wird klar, warum viele Projekte trotzdem schlechte Suchergebnisse liefern.

Der häufigste Grund liegt nicht in Qdrant. Er liegt vor Qdrant – bei der Vorbereitung der Texte.

Oder anders gesagt:

Eine Vektordatenbank kann nur so gut sein wie die Embeddings, die man ihr gibt.

Vorab: Qdrant ist unschuldig

Qdrant speichert, indexiert und vergleicht Vektoren extrem zuverlässig. Wenn Ergebnisse schlecht sind, liegt das fast immer an:

falschem Chunking
ungeeigneter Textlänge
lieblosen Metadaten
schlechtem oder redundantem Input

Das Gute: All das lässt sich systematisch verbessern.

Chunking-Strategien: weniger ist mehr – aber nicht zu wenig

Chunking bedeutet, Texte in sinnvolle Einheiten zu zerlegen, bevor sie in Embeddings umgewandelt werden.

Die wichtigste Erkenntnis:

Ein Embedding sollte eine inhaltliche Aussage repräsentieren – nicht ein ganzes Dokument.

Schlechte Chunks:

komplette HTML-Seiten
ganze PDFs
beliebige Zeichenlängen („alle 1.000 Zeichen abschneiden“)

Gute Chunks:

Absätze
thematisch geschlossene Blöcke
logisch zusammengehörige Aussagen

Ein guter Chunk beantwortet idealerweise eine Frage oder beschreibt einen Gedanken.

Faustregel:

zu groß → Bedeutung verwässert
zu klein → Kontext geht verloren

Textlänge & Token-Limits: technisch und semantisch denken

Embedding-Modelle haben Token-Limits. Aber noch wichtiger ist das semantische Limit.

Selbst wenn ein Modell technisch 4.000 Tokens akzeptiert, heißt das nicht, dass es sinnvoll ist, diese auch zu nutzen.

Warum lange Texte problematisch sind:

mehrere Themen in einem Vektor
schlechtere Trennschärfe
unpräzisere Treffer

Besser:

moderate Textlängen
ein Thema pro Chunk
Wiederholung von Kontext über Metadaten statt Text

Ein präziser Vektor schlägt immer einen „großen, unscharfen“.

Metadaten sinnvoll nutzen – nicht alles in den Text pressen

Ein häufiger Fehler ist, Kontext in den Text zu schreiben, statt ihn als Metadaten zu speichern.

Beispiel:

Quelle
Datum
Sprache
Domain
Dokumenttyp
Mandant
Kategorie

Diese Informationen gehören nicht in den Text selbst, sondern in die Payloads.

Warum das wichtig ist:

Metadaten sind filterbar
sie beeinflussen nicht die Ähnlichkeitsberechnung
sie halten den Vektor „sauber“

So bleibt die Bedeutung im Vektor – und der Kontext in den Filtern.

Typische Fehler – und warum sie so teuer sind

Duplicate Content

Der gleiche Text:

auf mehreren URLs
in mehreren Versionen
in mehreren Formaten

führt zu:

redundanten Vektoren
verzerrten Ergebnissen
unnötigem Speicherverbrauch

Deduplication vor dem Embedding ist kein Luxus, sondern Pflicht.

Garbage In, Garbage Out

Navigationstexte, Footer, Cookie-Banner, rechtliche Hinweise – alles landet im Embedding?

Dann ist das Ergebnis garantiert schlecht.

Embeddings lieben:

klaren Inhalt
natürliche Sprache
echte Aussagen

Sie hassen:

Boilerplate
Fragmentreste
technische Artefakte

Crawler und Parser müssen Inhalte filtern, nicht nur sammeln.

Zu viel auf einmal

Ein klassischer Anfängerfehler:

„Ich indexiere erstmal alles, dann schaue ich weiter.“

Das rächt sich später:

Re-Indexing kostet Zeit
falsche Strukturen verfestigen sich
schlechte Suchqualität wird „normal“

Besser:

klein starten
Qualität messen
Struktur früh festlegen

Warum das perfekt zu Crawler- & Ingest-Bots passt

Crawler entscheiden:

was eingesammelt wird

Ingest-Bots entscheiden:

wie es vorbereitet wird

Die eigentliche Qualität entsteht zwischen diesen beiden Schritten:

saubere Inhalte
gutes Chunking
sinnvolle Metadaten
bewusste Reduktion

Hier wird aus „Daten sammeln“ echtes Wissensmanagement.

Ein pragmatisches Qualitätsprinzip

Stell dir bei jedem Chunk nur eine Frage:

„Würde ich diesen Textausschnitt einem Menschen zeigen, um etwas zu erklären?“

Wenn die Antwort „nein“ ist, sollte er auch kein Embedding bekommen.

Gute Embeddings entstehen nicht durch Magie, sondern durch Disziplin in der Vorbereitung.

Wer:

Inhalte bewusst zerlegt
Textlängen kontrolliert
Metadaten sauber trennt
Redundanz vermeidet

bekommt mit Qdrant eine Suchqualität, die klassische Systeme schlicht nicht erreichen.

Vorab: Qdrant ist unschuldig

Chunking-Strategien: weniger ist mehr – aber nicht zu wenig

Schlechte Chunks:

Gute Chunks:

Textlänge & Token-Limits: technisch und semantisch denken

Warum lange Texte problematisch sind:

Besser:

Metadaten sinnvoll nutzen – nicht alles in den Text pressen

Typische Fehler – und warum sie so teuer sind

Duplicate Content

Garbage In, Garbage Out

Zu viel auf einmal

Warum das perfekt zu Crawler- & Ingest-Bots passt

Ein pragmatisches Qualitätsprinzip

Ähnliche Beiträge