- Veröffentlicht am
- • How2-Tipps
Praxis: Ollama & Qdrant – Lokale KI mit echtem Wissen aufbauen
- Autor
-
-
- Benutzer
- tmueller
- Beiträge dieses Autors
- Beiträge dieses Autors
-
Vom Sprachmodell zum echten lokalen KI-System
Bis hierher ist klar: Ein LLM formuliert gut – aber erst RAG liefert Wissen. Jetzt bauen wir das Ganze praxisnah zusammen: Ollama als Generator, Qdrant als Gedächtnis.
Ziel dieses Teils ist kein akademisches Diagramm, sondern ein funktionierendes lokales KI-System.
Qdrant kurz erklärt (ohne Marketing)
Qdrant ist eine Vektordatenbank. Punkt.
Sie speichert:
- Vektoren (Embeddings)
- Metadaten (Quelle, Titel, Abschnitt, Zeitstempel)
- und kann extrem schnell semantisch suchen
Was Qdrant nicht ist:
- keine klassische SQL-Datenbank
- kein KI-Modell
- kein Suchindex für Keywords
👉 Qdrant beantwortet eine einzige Frage:
Welche Inhalte sind semantisch am ähnlichsten zu dieser Anfrage?
Und genau das braucht RAG.
Architektur: Wer macht hier eigentlich was?
Ein sauberes Setup sieht so aus:
Dokumente
↓
Chunking
↓
Embeddings
↓
Qdrant ←→ Suche
↓
Kontext
↓
Ollama (LLM)
↓
Antwort
Wichtig:
- Qdrant entscheidet, welches Wissen relevant ist
- Ollama formuliert daraus die Antwort
- das Modell „weiß“ nichts außerhalb des gelieferten Kontexts
👉 Klare Rollen = stabile Ergebnisse.
Schritt 1: Embeddings erzeugen
Bevor du suchen kannst, musst du Inhalte einbetten.
Typischer Ablauf:
- Text einlesen
- in Chunks zerlegen (z. B. 500–800 Tokens)
- für jeden Chunk ein Embedding erzeugen
- Embedding + Metadaten in Qdrant speichern
Wichtig:
- Nutze immer dasselbe Embedding-Modell
- Mische keine Dimensionen
- Versioniere dein Setup
👉 Embeddings sind Infrastruktur, kein Nebenprodukt.
Schritt 2: Suche + Kontextaufbau
Wenn eine Frage kommt:
- Frage → Embedding
- Qdrant sucht die Top-k ähnlichsten Chunks
- Chunks werden sortiert & ggf. begrenzt
- daraus wird der Kontext gebaut
Ein guter Kontext ist:
- relevant
- kompakt
- widerspruchsfrei
- nachvollziehbar
❌ Zu viel Kontext → verwässert ❌ Zu wenig Kontext → Halluzinationen ✅ Passender Kontext → präzise Antworten
Schritt 3: Antwortgenerierung mit Ollama
Jetzt kommt das LLM ins Spiel.
Der Prompt besteht aus drei Teilen:
- Rolle (z. B. sachlicher Assistent)
- Kontext (aus Qdrant)
- Frage
Beispiel (vereinfacht):
Du bist ein technischer Assistent. Beantworte die Frage ausschließlich mit dem folgenden Kontext.
Kontext: – Abschnitt A – Abschnitt B
Frage: Wie funktioniert die Archivierung?
👉 Der wichtigste Satz:
„Antworte nur mit dem gegebenen Kontext.“
Das reduziert Halluzinationen drastisch.
Warum dieses Setup so gut funktioniert
Dieses System ist:
- 🔒 lokal & datenschutzfreundlich
- 🧠 wissensbasiert, nicht rätend
- 🔄 aktualisierbar ohne Retraining
- 🧩 erweiterbar (weitere Datenquellen)
- ⚙️ robust gegen Modellwechsel
Du kannst:
- das LLM austauschen
- die Embeddings verbessern
- Qdrant skalieren
- ohne alles neu zu bauen
👉 Architektur schlägt Modellgröße.
Typische Praxisfehler (und wie du sie vermeidest)
❌ „Ich speichere ganze PDFs als einen Chunk“
→ Suche wird ungenau.
✅ Sauberes Chunking mit Überlappung.
❌ „Das LLM weiß das schon“
→ Nein. Ohne Kontext rät es.
✅ Kontext immer explizit liefern.
❌ „Ich hole 20 Chunks, dann ist alles drin“
→ Overload.
✅ Wenige, hochwertige Treffer.
Fazit: Das ist echte lokale KI
Mit Ollama + Qdrant hast du:
- kein Demo-Chatfenster
- kein Spielzeug-Bot
- sondern ein echtes Wissenssystem
Das Modell:
- denkt nicht selbst
- entscheidet nicht über Wahrheit
- formuliert nur
Die Wahrheit kommt aus deinen Daten.
RAG macht aus einem LLM ein argumentierendes Werkzeug.