open-how2 – Entdecke. Verstehe. Nutze.
Veröffentlicht am
How2-Tipps

Embeddings richtig erzeugen: Texte vorbereiten für Qdrant

Autor
Embeddings richtig erzeugen: Texte vorbereiten für Qdrant

Bis hierhin ist klar, wie Qdrant Daten speichert. Ab jetzt wird klar, warum viele Projekte trotzdem schlechte Suchergebnisse liefern.

Der häufigste Grund liegt nicht in Qdrant. Er liegt vor Qdrant – bei der Vorbereitung der Texte.

Oder anders gesagt:

Eine Vektordatenbank kann nur so gut sein wie die Embeddings, die man ihr gibt.

Vorab: Qdrant ist unschuldig

Qdrant speichert, indexiert und vergleicht Vektoren extrem zuverlässig. Wenn Ergebnisse schlecht sind, liegt das fast immer an:

  • falschem Chunking
  • ungeeigneter Textlänge
  • lieblosen Metadaten
  • schlechtem oder redundantem Input

Das Gute: All das lässt sich systematisch verbessern.

Chunking-Strategien: weniger ist mehr – aber nicht zu wenig

Chunking bedeutet, Texte in sinnvolle Einheiten zu zerlegen, bevor sie in Embeddings umgewandelt werden.

Die wichtigste Erkenntnis:

Ein Embedding sollte eine inhaltliche Aussage repräsentieren – nicht ein ganzes Dokument.

Schlechte Chunks:

  • komplette HTML-Seiten
  • ganze PDFs
  • beliebige Zeichenlängen („alle 1.000 Zeichen abschneiden“)

Gute Chunks:

  • Absätze
  • thematisch geschlossene Blöcke
  • logisch zusammengehörige Aussagen

Ein guter Chunk beantwortet idealerweise eine Frage oder beschreibt einen Gedanken.

Faustregel:

  • zu groß → Bedeutung verwässert
  • zu klein → Kontext geht verloren

Textlänge & Token-Limits: technisch und semantisch denken

Embedding-Modelle haben Token-Limits. Aber noch wichtiger ist das semantische Limit.

Selbst wenn ein Modell technisch 4.000 Tokens akzeptiert, heißt das nicht, dass es sinnvoll ist, diese auch zu nutzen.

Warum lange Texte problematisch sind:

  • mehrere Themen in einem Vektor
  • schlechtere Trennschärfe
  • unpräzisere Treffer

Besser:

  • moderate Textlängen
  • ein Thema pro Chunk
  • Wiederholung von Kontext über Metadaten statt Text

Ein präziser Vektor schlägt immer einen „großen, unscharfen“.

Metadaten sinnvoll nutzen – nicht alles in den Text pressen

Ein häufiger Fehler ist, Kontext in den Text zu schreiben, statt ihn als Metadaten zu speichern.

Beispiel:

  • Quelle
  • Datum
  • Sprache
  • Domain
  • Dokumenttyp
  • Mandant
  • Kategorie

Diese Informationen gehören nicht in den Text selbst, sondern in die Payloads.

Warum das wichtig ist:

  • Metadaten sind filterbar
  • sie beeinflussen nicht die Ähnlichkeitsberechnung
  • sie halten den Vektor „sauber“

So bleibt die Bedeutung im Vektor – und der Kontext in den Filtern.

Typische Fehler – und warum sie so teuer sind

Duplicate Content

Der gleiche Text:

  • auf mehreren URLs
  • in mehreren Versionen
  • in mehreren Formaten

führt zu:

  • redundanten Vektoren
  • verzerrten Ergebnissen
  • unnötigem Speicherverbrauch

Deduplication vor dem Embedding ist kein Luxus, sondern Pflicht.

Garbage In, Garbage Out

Navigationstexte, Footer, Cookie-Banner, rechtliche Hinweise – alles landet im Embedding?

Dann ist das Ergebnis garantiert schlecht.

Embeddings lieben:

  • klaren Inhalt
  • natürliche Sprache
  • echte Aussagen

Sie hassen:

  • Boilerplate
  • Fragmentreste
  • technische Artefakte

Crawler und Parser müssen Inhalte filtern, nicht nur sammeln.

Zu viel auf einmal

Ein klassischer Anfängerfehler:

„Ich indexiere erstmal alles, dann schaue ich weiter.“

Das rächt sich später:

  • Re-Indexing kostet Zeit
  • falsche Strukturen verfestigen sich
  • schlechte Suchqualität wird „normal“

Besser:

  • klein starten
  • Qualität messen
  • Struktur früh festlegen

Warum das perfekt zu Crawler- & Ingest-Bots passt

Crawler entscheiden:

  • was eingesammelt wird

Ingest-Bots entscheiden:

  • wie es vorbereitet wird

Die eigentliche Qualität entsteht zwischen diesen beiden Schritten:

  • saubere Inhalte
  • gutes Chunking
  • sinnvolle Metadaten
  • bewusste Reduktion

Hier wird aus „Daten sammeln“ echtes Wissensmanagement.

Ein pragmatisches Qualitätsprinzip

Stell dir bei jedem Chunk nur eine Frage:

„Würde ich diesen Textausschnitt einem Menschen zeigen, um etwas zu erklären?“

Wenn die Antwort „nein“ ist, sollte er auch kein Embedding bekommen.

Gute Embeddings entstehen nicht durch Magie, sondern durch Disziplin in der Vorbereitung.

Wer:

  • Inhalte bewusst zerlegt
  • Textlängen kontrolliert
  • Metadaten sauber trennt
  • Redundanz vermeidet

bekommt mit Qdrant eine Suchqualität, die klassische Systeme schlicht nicht erreichen.