- Veröffentlicht am
- • How2-Tipps
Eigene Wissensbasis mit Ollama & RAG – Grundlagen verständlich erklärt
- Autor
-
-
- Benutzer
- tmueller
- Beiträge dieses Autors
- Beiträge dieses Autors
-
Warum Modelle nicht „wissen“ – und wie du ihnen Wissen gibst
Spätestens jetzt kommt die ernüchternde Erkenntnis: Dein lokales LLM klingt klug, weiß aber nichts über deine Daten.
Kein Handbuch. Keine Projektdokumentation. Keine internen Mails. Keine PDFs.
Das ist kein Fehler – das ist das Design. Die Lösung heißt RAG.
Warum Modelle nicht „wissen“
Ein Sprachmodell ist kein Wissensspeicher, sondern ein Wahrscheinlichkeitsmotor.
Es:
- berechnet das nächste Token
- auf Basis von Trainingsmustern
- aus längst vergangenen Datenständen
Was es nicht kann:
- in deine Dateien schauen
- aktuelle Infos abrufen
- Fakten nachschlagen
- Quellen prüfen
Auch Ollama ändert daran nichts. Ollama führt Modelle aus – es füttert sie nicht mit deinem Wissen.
👉 Ohne Kontext rät das Modell. Mit Kontext argumentiert es.
RAG – das Prinzip in einem Satz
RAG (Retrieval-Augmented Generation) bedeutet:
„Hole relevantes Wissen aus deinen Daten und gib es dem Modell genau dann, wenn es antwortet.“
Kein Retraining. Keine Magie. Nur saubere Architektur.
RAG einfach erklärt (ohne Buzzwords)
Stell dir RAG wie ein offenes Buch vor:
- Du stellst eine Frage
- Das System sucht passende Textstellen
- Diese Textstellen werden dem Modell mitgegeben
- Das Modell formuliert daraus eine Antwort
Das Modell:
- findet nichts selbst
- entscheidet nicht, was wichtig ist
- arbeitet nur mit dem gelieferten Kontext
👉 RAG trennt Wissen von Formulierung.
Die vier Bausteine einer RAG-Architektur
1️⃣ Deine Daten
- Texte
- PDFs
- HTML
- Markdown
- Logs
- Datenbankeinträge
Alles, was Inhalt hat.
2️⃣ Chunking – Wissen verdaulich machen
Große Texte funktionieren schlecht. Deshalb werden sie zerlegt.
Chunking bedeutet:
- Text in sinnvolle Abschnitte teilen
- z. B. 300–800 Tokens
- mit leichter Überlappung
Warum das wichtig ist:
- zu groß → ungenau
- zu klein → Kontextverlust
👉 Chunking ist Handwerk, kein Zufall.
3️⃣ Embeddings – Bedeutung messbar machen
Ein Embedding ist eine Zahlenliste, die Bedeutung repräsentiert.
- Text → Vektor
- ähnliche Inhalte → ähnliche Vektoren
- völlig sprachunabhängig
Beispiel:
- „Server installieren“
- „Installation eines Servers“
→ liegen im Vektorraum nah beieinander.
👉 Embeddings machen Semantik suchbar.
4️⃣ Vektordatenbank – das Gedächtnis
Hier landen die Embeddings.
Aufgaben:
- speichern
- vergleichen
- relevante Chunks finden
Typische Vertreter:
- Qdrant
- FAISS
- Milvus
👉 Die Vektordatenbank entscheidet, welches Wissen das Modell bekommt.
Der komplette RAG-Ablauf (praxisnah)
- Dokumente einlesen
- In Chunks zerlegen
- Embeddings erzeugen
- In Vektordatenbank speichern
Zur Laufzeit:
- Nutzerfrage → Embedding
- Ähnliche Chunks suchen
- Chunks + Frage an das LLM
- Antwort generieren
👉 Das Modell bleibt klein – das Wissen wächst unbegrenzt.
Warum RAG besser ist als „größeres Modell“
Viele versuchen:
„Ich lade einfach ein 70B-Modell.“
Das löst kein einziges dieser Probleme:
- Aktualität ❌
- Quellen ❌
- Nachvollziehbarkeit ❌
- eigene Daten ❌
RAG dagegen:
- ist transparent
- ist aktualisierbar
- ist kontrollierbar
- ist reproduzierbar
👉 Ein gutes RAG mit 7B schlägt ein blindes 70B fast immer.
Fazit: Eigene Daten = eigene KI
Mit RAG passiert der entscheidende Wandel:
- von Spielerei
- zu Wissenssystem
- zu produktiver KI
Ollama wird dabei:
- zum Textgenerator
- nicht zum Wissenshalter
Und genau das ist seine Stärke.
RAG macht aus einem Sprachmodell ein argumentierendes System.