- Veröffentlicht am
- • How2-Tipps
LLM-Modelle verstehen: LLaMA, Mistral, Gemma richtig auswählen
- Autor
-
-
- Benutzer
- tmueller
- Beiträge dieses Autors
- Beiträge dieses Autors
-
Warum du nicht blind Modelle laden solltest
Nach Installation und erstem Start kommt meist der klassische Fehler: „Ich lade einfach das größte Modell – wird schon besser sein.“
Spoiler: Ist es meistens nicht.
Dieser Teil hilft dir, Modelle bewusst auszuwählen, statt wahllos Gigabytes zu laden. Denn bei lokalen LLMs entscheidet das richtige Modell oft mehr als die Hardware.
Modellfamilien – was steckt eigentlich dahinter?
Lokale Sprachmodelle stammen fast immer aus wenigen großen Familien. Die Namen wirken austauschbar, die Unterschiede sind es nicht.
LLaMA (Meta)
Entwickelt von Meta. Sehr weit verbreitet, riesiges Ökosystem, viele Feintunes.
Stärken
- solide Allrounder
- gute Sprachqualität
- viele Community-Varianten
Schwächen
- nicht immer die besten Code-Ergebnisse
- größere Varianten sehr RAM-hungrig
Mistral
Von Mistral AI. Bekannt für überraschend starke Leistung bei kleinen Modellen.
Stärken
- extrem effizient
- stark bei Logik & Code
- sehr gute Performance pro Parameter
Schwächen
- kleinere Modellpalette
- weniger „gesprächig“ ohne gutes Prompting
Gemma
Offene Modelle von Google.
Stärken
- saubere Antworten
- gut bei Zusammenfassungen
- angenehm strukturierte Outputs
Schwächen
- weniger Community-Feintunes
- nicht für jedes Szenario ideal
👉 Merke: Die Modellfamilie gibt die Grund-DNA vor. Feintuning kann viel verbessern – aber nichts komplett umdrehen.
Größen, Parameter & RAM – die harte Realität
Modelle werden meist mit ihrer Parameteranzahl beworben:
- 7B
- 13B
- 34B
- 70B
„B“ steht für Milliarden Parameter – also grob gesagt: Modellgröße.
Faustregeln für RAM-Bedarf (ungefähr)
| Modellgröße | Minimal sinnvoll |
|---|---|
| 7B | 8–10 GB RAM |
| 13B | 16 GB RAM |
| 34B | 32 GB RAM |
| 70B | 64 GB+ RAM |
⚠️ Das sind keine Garantien, sondern realistische Erfahrungswerte.
👉 Wichtig:
- CPU-Setups brauchen mehr RAM als GPU-Setups
- gleichzeitige Modelle multiplizieren den Bedarf
- Swapping = Tod der Performance
Welche Modelle für welchen Zweck?
💬 Chat & Dialog
Anforderungen
- natürliche Sprache
- flüssiger Stil
- Kontextverständnis
Empfehlung
- LLaMA-basierte 7B–13B
- Gemma (für strukturierte Antworten)
👉 Größer bringt hier oft nur mehr Gelaber, nicht mehr Qualität.
💻 Code & Technik
Anforderungen
- logisches Denken
- Syntax-Verständnis
- präzise Antworten
Empfehlung
- Mistral-Varianten
- Code-spezifische Feintunes
👉 Ein gutes 7B-Code-Modell schlägt oft ein generisches 13B.
📝 Zusammenfassungen
Anforderungen
- Struktur
- Reduktion
- Klarheit
Empfehlung
- Gemma
- kleinere LLaMA-Modelle
👉 Hier zählt Prompt + Modell, nicht Größe.
📚 RAG (Retrieval-Augmented Generation)
Anforderungen
- Kontextverarbeitung
- präzise Antworten
- keine Halluzinationen
Empfehlung
- stabile 7B–13B Modelle
- Fokus auf Embedding-Qualität, nicht Modellgröße
👉 In RAG-Systemen ist das Wissenssystem wichtiger als das LLM.
Warum „größer“ nicht immer „besser“ ist
Das ist der wichtigste Punkt dieses Artikels.
Große Modelle:
- sind langsamer
- brauchen mehr RAM
- reagieren träger
- sind schwerer zu kontrollieren
Kleinere Modelle:
- antworten schneller
- lassen sich besser prompten
- sind reproduzierbarer
- eignen sich besser für Automatisierung
👉 Qualität entsteht aus:
- passendem Modell
- gutem Prompt
- klarem Kontext
Nicht aus schierer Größe.
Fazit: Bewusst wählen statt wild laden
Wenn du lokal arbeitest, gilt eine andere Regel als in der Cloud:
Das beste Modell ist das, das deinen Zweck zuverlässig erfüllt – nicht das größte, das noch startet.
Starte klein. Teste gezielt. Skaliere bewusst.
Dann wird Ollama zum Werkzeug – nicht zum RAM-Fresser.