open-how2 – Entdecke. Verstehe. Nutze.
Veröffentlicht am
How2-Tipps

Praxis: Ollama & Qdrant – Lokale KI mit echtem Wissen aufbauen

Autor
Praxis: Ollama & Qdrant – Lokale KI mit echtem Wissen aufbauen

Vom Sprachmodell zum echten lokalen KI-System

Bis hierher ist klar: Ein LLM formuliert gut – aber erst RAG liefert Wissen. Jetzt bauen wir das Ganze praxisnah zusammen: Ollama als Generator, Qdrant als Gedächtnis.

Ziel dieses Teils ist kein akademisches Diagramm, sondern ein funktionierendes lokales KI-System.

Qdrant kurz erklärt (ohne Marketing)

Qdrant ist eine Vektordatenbank. Punkt.

Sie speichert:

  • Vektoren (Embeddings)
  • Metadaten (Quelle, Titel, Abschnitt, Zeitstempel)
  • und kann extrem schnell semantisch suchen

Was Qdrant nicht ist:

  • keine klassische SQL-Datenbank
  • kein KI-Modell
  • kein Suchindex für Keywords

👉 Qdrant beantwortet eine einzige Frage:

Welche Inhalte sind semantisch am ähnlichsten zu dieser Anfrage?

Und genau das braucht RAG.

Architektur: Wer macht hier eigentlich was?

Ein sauberes Setup sieht so aus:

Dokumente
   ↓
Chunking
   ↓
Embeddings
   ↓
Qdrant  ←→  Suche
   ↓
Kontext
   ↓
Ollama (LLM)
   ↓
Antwort

Wichtig:

  • Qdrant entscheidet, welches Wissen relevant ist
  • Ollama formuliert daraus die Antwort
  • das Modell „weiß“ nichts außerhalb des gelieferten Kontexts

👉 Klare Rollen = stabile Ergebnisse.

Schritt 1: Embeddings erzeugen

Bevor du suchen kannst, musst du Inhalte einbetten.

Typischer Ablauf:

  1. Text einlesen
  2. in Chunks zerlegen (z. B. 500–800 Tokens)
  3. für jeden Chunk ein Embedding erzeugen
  4. Embedding + Metadaten in Qdrant speichern

Wichtig:

  • Nutze immer dasselbe Embedding-Modell
  • Mische keine Dimensionen
  • Versioniere dein Setup

👉 Embeddings sind Infrastruktur, kein Nebenprodukt.

Schritt 2: Suche + Kontextaufbau

Wenn eine Frage kommt:

  1. Frage → Embedding
  2. Qdrant sucht die Top-k ähnlichsten Chunks
  3. Chunks werden sortiert & ggf. begrenzt
  4. daraus wird der Kontext gebaut

Ein guter Kontext ist:

  • relevant
  • kompakt
  • widerspruchsfrei
  • nachvollziehbar

❌ Zu viel Kontext → verwässert ❌ Zu wenig Kontext → Halluzinationen ✅ Passender Kontext → präzise Antworten

Schritt 3: Antwortgenerierung mit Ollama

Jetzt kommt das LLM ins Spiel.

Der Prompt besteht aus drei Teilen:

  1. Rolle (z. B. sachlicher Assistent)
  2. Kontext (aus Qdrant)
  3. Frage

Beispiel (vereinfacht):

Du bist ein technischer Assistent. Beantworte die Frage ausschließlich mit dem folgenden Kontext.

Kontext: – Abschnitt A – Abschnitt B

Frage: Wie funktioniert die Archivierung?

👉 Der wichtigste Satz:

„Antworte nur mit dem gegebenen Kontext.“

Das reduziert Halluzinationen drastisch.

Warum dieses Setup so gut funktioniert

Dieses System ist:

  • 🔒 lokal & datenschutzfreundlich
  • 🧠 wissensbasiert, nicht rätend
  • 🔄 aktualisierbar ohne Retraining
  • 🧩 erweiterbar (weitere Datenquellen)
  • ⚙️ robust gegen Modellwechsel

Du kannst:

  • das LLM austauschen
  • die Embeddings verbessern
  • Qdrant skalieren
  • ohne alles neu zu bauen

👉 Architektur schlägt Modellgröße.

Typische Praxisfehler (und wie du sie vermeidest)

❌ „Ich speichere ganze PDFs als einen Chunk“

→ Suche wird ungenau.

✅ Sauberes Chunking mit Überlappung.

❌ „Das LLM weiß das schon“

→ Nein. Ohne Kontext rät es.

✅ Kontext immer explizit liefern.

❌ „Ich hole 20 Chunks, dann ist alles drin“

→ Overload.

✅ Wenige, hochwertige Treffer.

Fazit: Das ist echte lokale KI

Mit Ollama + Qdrant hast du:

  • kein Demo-Chatfenster
  • kein Spielzeug-Bot
  • sondern ein echtes Wissenssystem

Das Modell:

  • denkt nicht selbst
  • entscheidet nicht über Wahrheit
  • formuliert nur

Die Wahrheit kommt aus deinen Daten.

RAG macht aus einem LLM ein argumentierendes Werkzeug.