- Veröffentlicht am
- • How2-Tipps
Embeddings richtig erzeugen: Texte vorbereiten für Qdrant
- Autor
-
-
- Benutzer
- tmueller
- Beiträge dieses Autors
- Beiträge dieses Autors
-
Bis hierhin ist klar, wie Qdrant Daten speichert. Ab jetzt wird klar, warum viele Projekte trotzdem schlechte Suchergebnisse liefern.
Der häufigste Grund liegt nicht in Qdrant. Er liegt vor Qdrant – bei der Vorbereitung der Texte.
Oder anders gesagt:
Eine Vektordatenbank kann nur so gut sein wie die Embeddings, die man ihr gibt.
Vorab: Qdrant ist unschuldig
Qdrant speichert, indexiert und vergleicht Vektoren extrem zuverlässig. Wenn Ergebnisse schlecht sind, liegt das fast immer an:
- falschem Chunking
- ungeeigneter Textlänge
- lieblosen Metadaten
- schlechtem oder redundantem Input
Das Gute: All das lässt sich systematisch verbessern.
Chunking-Strategien: weniger ist mehr – aber nicht zu wenig
Chunking bedeutet, Texte in sinnvolle Einheiten zu zerlegen, bevor sie in Embeddings umgewandelt werden.
Die wichtigste Erkenntnis:
Ein Embedding sollte eine inhaltliche Aussage repräsentieren – nicht ein ganzes Dokument.
Schlechte Chunks:
- komplette HTML-Seiten
- ganze PDFs
- beliebige Zeichenlängen („alle 1.000 Zeichen abschneiden“)
Gute Chunks:
- Absätze
- thematisch geschlossene Blöcke
- logisch zusammengehörige Aussagen
Ein guter Chunk beantwortet idealerweise eine Frage oder beschreibt einen Gedanken.
Faustregel:
- zu groß → Bedeutung verwässert
- zu klein → Kontext geht verloren
Textlänge & Token-Limits: technisch und semantisch denken
Embedding-Modelle haben Token-Limits. Aber noch wichtiger ist das semantische Limit.
Selbst wenn ein Modell technisch 4.000 Tokens akzeptiert, heißt das nicht, dass es sinnvoll ist, diese auch zu nutzen.
Warum lange Texte problematisch sind:
- mehrere Themen in einem Vektor
- schlechtere Trennschärfe
- unpräzisere Treffer
Besser:
- moderate Textlängen
- ein Thema pro Chunk
- Wiederholung von Kontext über Metadaten statt Text
Ein präziser Vektor schlägt immer einen „großen, unscharfen“.
Metadaten sinnvoll nutzen – nicht alles in den Text pressen
Ein häufiger Fehler ist, Kontext in den Text zu schreiben, statt ihn als Metadaten zu speichern.
Beispiel:
- Quelle
- Datum
- Sprache
- Domain
- Dokumenttyp
- Mandant
- Kategorie
Diese Informationen gehören nicht in den Text selbst, sondern in die Payloads.
Warum das wichtig ist:
- Metadaten sind filterbar
- sie beeinflussen nicht die Ähnlichkeitsberechnung
- sie halten den Vektor „sauber“
So bleibt die Bedeutung im Vektor – und der Kontext in den Filtern.
Typische Fehler – und warum sie so teuer sind
Duplicate Content
Der gleiche Text:
- auf mehreren URLs
- in mehreren Versionen
- in mehreren Formaten
führt zu:
- redundanten Vektoren
- verzerrten Ergebnissen
- unnötigem Speicherverbrauch
Deduplication vor dem Embedding ist kein Luxus, sondern Pflicht.
Garbage In, Garbage Out
Navigationstexte, Footer, Cookie-Banner, rechtliche Hinweise – alles landet im Embedding?
Dann ist das Ergebnis garantiert schlecht.
Embeddings lieben:
- klaren Inhalt
- natürliche Sprache
- echte Aussagen
Sie hassen:
- Boilerplate
- Fragmentreste
- technische Artefakte
Crawler und Parser müssen Inhalte filtern, nicht nur sammeln.
Zu viel auf einmal
Ein klassischer Anfängerfehler:
„Ich indexiere erstmal alles, dann schaue ich weiter.“
Das rächt sich später:
- Re-Indexing kostet Zeit
- falsche Strukturen verfestigen sich
- schlechte Suchqualität wird „normal“
Besser:
- klein starten
- Qualität messen
- Struktur früh festlegen
Warum das perfekt zu Crawler- & Ingest-Bots passt
Crawler entscheiden:
- was eingesammelt wird
Ingest-Bots entscheiden:
- wie es vorbereitet wird
Die eigentliche Qualität entsteht zwischen diesen beiden Schritten:
- saubere Inhalte
- gutes Chunking
- sinnvolle Metadaten
- bewusste Reduktion
Hier wird aus „Daten sammeln“ echtes Wissensmanagement.
Ein pragmatisches Qualitätsprinzip
Stell dir bei jedem Chunk nur eine Frage:
„Würde ich diesen Textausschnitt einem Menschen zeigen, um etwas zu erklären?“
Wenn die Antwort „nein“ ist, sollte er auch kein Embedding bekommen.
Gute Embeddings entstehen nicht durch Magie, sondern durch Disziplin in der Vorbereitung.
Wer:
- Inhalte bewusst zerlegt
- Textlängen kontrolliert
- Metadaten sauber trennt
- Redundanz vermeidet
bekommt mit Qdrant eine Suchqualität, die klassische Systeme schlicht nicht erreichen.