Eigene Wissensbasis mit Ollama & RAG – Grundlagen verständlich erklärt - open-how2

Warum Modelle nicht „wissen“ – und wie du ihnen Wissen gibst

Spätestens jetzt kommt die ernüchternde Erkenntnis: Dein lokales LLM klingt klug, weiß aber nichts über deine Daten.

Kein Handbuch. Keine Projektdokumentation. Keine internen Mails. Keine PDFs.

Das ist kein Fehler – das ist das Design. Die Lösung heißt RAG.

Warum Modelle nicht „wissen“

Ein Sprachmodell ist kein Wissensspeicher, sondern ein Wahrscheinlichkeitsmotor.

Es:

berechnet das nächste Token
auf Basis von Trainingsmustern
aus längst vergangenen Datenständen

Was es nicht kann:

in deine Dateien schauen
aktuelle Infos abrufen
Fakten nachschlagen
Quellen prüfen

Auch Ollama ändert daran nichts. Ollama führt Modelle aus – es füttert sie nicht mit deinem Wissen.

👉 Ohne Kontext rät das Modell. Mit Kontext argumentiert es.

RAG – das Prinzip in einem Satz

RAG (Retrieval-Augmented Generation) bedeutet:

„Hole relevantes Wissen aus deinen Daten und gib es dem Modell genau dann, wenn es antwortet.“

Kein Retraining. Keine Magie. Nur saubere Architektur.

RAG einfach erklärt (ohne Buzzwords)

Stell dir RAG wie ein offenes Buch vor:

Du stellst eine Frage
Das System sucht passende Textstellen
Diese Textstellen werden dem Modell mitgegeben
Das Modell formuliert daraus eine Antwort

Das Modell:

findet nichts selbst
entscheidet nicht, was wichtig ist
arbeitet nur mit dem gelieferten Kontext

👉 RAG trennt Wissen von Formulierung.

Die vier Bausteine einer RAG-Architektur

1️⃣ Deine Daten

Texte
PDFs
HTML
Markdown
Logs
Datenbankeinträge

Alles, was Inhalt hat.

2️⃣ Chunking – Wissen verdaulich machen

Große Texte funktionieren schlecht. Deshalb werden sie zerlegt.

Chunking bedeutet:

Text in sinnvolle Abschnitte teilen
z. B. 300–800 Tokens
mit leichter Überlappung

Warum das wichtig ist:

zu groß → ungenau
zu klein → Kontextverlust

👉 Chunking ist Handwerk, kein Zufall.

3️⃣ Embeddings – Bedeutung messbar machen

Ein Embedding ist eine Zahlenliste, die Bedeutung repräsentiert.

Text → Vektor
ähnliche Inhalte → ähnliche Vektoren
völlig sprachunabhängig

Beispiel:

„Server installieren“
„Installation eines Servers“

→ liegen im Vektorraum nah beieinander.

👉 Embeddings machen Semantik suchbar.

4️⃣ Vektordatenbank – das Gedächtnis

Hier landen die Embeddings.

Aufgaben:

speichern
vergleichen
relevante Chunks finden

Typische Vertreter:

Qdrant
FAISS
Milvus

👉 Die Vektordatenbank entscheidet, welches Wissen das Modell bekommt.

Der komplette RAG-Ablauf (praxisnah)

Dokumente einlesen
In Chunks zerlegen
Embeddings erzeugen
In Vektordatenbank speichern

Zur Laufzeit:

Nutzerfrage → Embedding
Ähnliche Chunks suchen
Chunks + Frage an das LLM
Antwort generieren

👉 Das Modell bleibt klein – das Wissen wächst unbegrenzt.

Warum RAG besser ist als „größeres Modell“

Viele versuchen:

„Ich lade einfach ein 70B-Modell.“

Das löst kein einziges dieser Probleme:

Aktualität ❌
Quellen ❌
Nachvollziehbarkeit ❌
eigene Daten ❌

RAG dagegen:

ist transparent
ist aktualisierbar
ist kontrollierbar
ist reproduzierbar

👉 Ein gutes RAG mit 7B schlägt ein blindes 70B fast immer.

Fazit: Eigene Daten = eigene KI

Mit RAG passiert der entscheidende Wandel:

von Spielerei
zu Wissenssystem
zu produktiver KI

Ollama wird dabei:

zum Textgenerator
nicht zum Wissenshalter

Und genau das ist seine Stärke.

RAG macht aus einem Sprachmodell ein argumentierendes System.