Praxis: Ollama & Qdrant – Lokale KI mit echtem Wissen aufbauen - open-how2

Vom Sprachmodell zum echten lokalen KI-System

Bis hierher ist klar: Ein LLM formuliert gut – aber erst RAG liefert Wissen. Jetzt bauen wir das Ganze praxisnah zusammen: Ollama als Generator, Qdrant als Gedächtnis.

Ziel dieses Teils ist kein akademisches Diagramm, sondern ein funktionierendes lokales KI-System.

Qdrant kurz erklärt (ohne Marketing)

Qdrant ist eine Vektordatenbank. Punkt.

Sie speichert:

Vektoren (Embeddings)
Metadaten (Quelle, Titel, Abschnitt, Zeitstempel)
und kann extrem schnell semantisch suchen

Was Qdrant nicht ist:

keine klassische SQL-Datenbank
kein KI-Modell
kein Suchindex für Keywords

👉 Qdrant beantwortet eine einzige Frage:

Welche Inhalte sind semantisch am ähnlichsten zu dieser Anfrage?

Und genau das braucht RAG.

Architektur: Wer macht hier eigentlich was?

Ein sauberes Setup sieht so aus:

Dokumente
   ↓
Chunking
   ↓
Embeddings
   ↓
Qdrant  ←→  Suche
   ↓
Kontext
   ↓
Ollama (LLM)
   ↓
Antwort

Wichtig:

Qdrant entscheidet, welches Wissen relevant ist
Ollama formuliert daraus die Antwort
das Modell „weiß“ nichts außerhalb des gelieferten Kontexts

👉 Klare Rollen = stabile Ergebnisse.

Schritt 1: Embeddings erzeugen

Bevor du suchen kannst, musst du Inhalte einbetten.

Typischer Ablauf:

Text einlesen
in Chunks zerlegen (z. B. 500–800 Tokens)
für jeden Chunk ein Embedding erzeugen
Embedding + Metadaten in Qdrant speichern

Wichtig:

Nutze immer dasselbe Embedding-Modell
Mische keine Dimensionen
Versioniere dein Setup

👉 Embeddings sind Infrastruktur, kein Nebenprodukt.

Schritt 2: Suche + Kontextaufbau

Wenn eine Frage kommt:

Frage → Embedding
Qdrant sucht die Top-k ähnlichsten Chunks
Chunks werden sortiert & ggf. begrenzt
daraus wird der Kontext gebaut

Ein guter Kontext ist:

relevant
kompakt
widerspruchsfrei
nachvollziehbar

❌ Zu viel Kontext → verwässert ❌ Zu wenig Kontext → Halluzinationen ✅ Passender Kontext → präzise Antworten

Schritt 3: Antwortgenerierung mit Ollama

Jetzt kommt das LLM ins Spiel.

Der Prompt besteht aus drei Teilen:

Rolle (z. B. sachlicher Assistent)
Kontext (aus Qdrant)
Frage

Beispiel (vereinfacht):

Du bist ein technischer Assistent. Beantworte die Frage ausschließlich mit dem folgenden Kontext.

Kontext: – Abschnitt A – Abschnitt B

Frage: Wie funktioniert die Archivierung?

👉 Der wichtigste Satz:

„Antworte nur mit dem gegebenen Kontext.“

Das reduziert Halluzinationen drastisch.

Warum dieses Setup so gut funktioniert

Dieses System ist:

🔒 lokal & datenschutzfreundlich
🧠 wissensbasiert, nicht rätend
🔄 aktualisierbar ohne Retraining
🧩 erweiterbar (weitere Datenquellen)
⚙️ robust gegen Modellwechsel

Du kannst:

das LLM austauschen
die Embeddings verbessern
Qdrant skalieren
ohne alles neu zu bauen

👉 Architektur schlägt Modellgröße.

Typische Praxisfehler (und wie du sie vermeidest)

❌ „Ich speichere ganze PDFs als einen Chunk“

→ Suche wird ungenau.

✅ Sauberes Chunking mit Überlappung.

❌ „Das LLM weiß das schon“

→ Nein. Ohne Kontext rät es.

✅ Kontext immer explizit liefern.

❌ „Ich hole 20 Chunks, dann ist alles drin“

→ Overload.

✅ Wenige, hochwertige Treffer.

Fazit: Das ist echte lokale KI

Mit Ollama + Qdrant hast du:

kein Demo-Chatfenster
kein Spielzeug-Bot
sondern ein echtes Wissenssystem

Das Modell:

denkt nicht selbst
entscheidet nicht über Wahrheit
formuliert nur

Die Wahrheit kommt aus deinen Daten.

RAG macht aus einem LLM ein argumentierendes Werkzeug.