open-how2 – Entdecke. Verstehe. Nutze.
Veröffentlicht am
How2-Tipps

LLM-Modelle verstehen: LLaMA, Mistral, Gemma richtig auswählen

Autor
LLM-Modelle verstehen: LLaMA, Mistral, Gemma richtig auswählen

Warum du nicht blind Modelle laden solltest

Nach Installation und erstem Start kommt meist der klassische Fehler: „Ich lade einfach das größte Modell – wird schon besser sein.“

Spoiler: Ist es meistens nicht.

Dieser Teil hilft dir, Modelle bewusst auszuwählen, statt wahllos Gigabytes zu laden. Denn bei lokalen LLMs entscheidet das richtige Modell oft mehr als die Hardware.

Modellfamilien – was steckt eigentlich dahinter?

Lokale Sprachmodelle stammen fast immer aus wenigen großen Familien. Die Namen wirken austauschbar, die Unterschiede sind es nicht.

LLaMA (Meta)

Entwickelt von Meta. Sehr weit verbreitet, riesiges Ökosystem, viele Feintunes.

Stärken

  • solide Allrounder
  • gute Sprachqualität
  • viele Community-Varianten

Schwächen

  • nicht immer die besten Code-Ergebnisse
  • größere Varianten sehr RAM-hungrig

Mistral

Von Mistral AI. Bekannt für überraschend starke Leistung bei kleinen Modellen.

Stärken

  • extrem effizient
  • stark bei Logik & Code
  • sehr gute Performance pro Parameter

Schwächen

  • kleinere Modellpalette
  • weniger „gesprächig“ ohne gutes Prompting

Gemma

Offene Modelle von Google.

Stärken

  • saubere Antworten
  • gut bei Zusammenfassungen
  • angenehm strukturierte Outputs

Schwächen

  • weniger Community-Feintunes
  • nicht für jedes Szenario ideal

👉 Merke: Die Modellfamilie gibt die Grund-DNA vor. Feintuning kann viel verbessern – aber nichts komplett umdrehen.

Größen, Parameter & RAM – die harte Realität

Modelle werden meist mit ihrer Parameteranzahl beworben:

  • 7B
  • 13B
  • 34B
  • 70B

„B“ steht für Milliarden Parameter – also grob gesagt: Modellgröße.

Faustregeln für RAM-Bedarf (ungefähr)

Modellgröße Minimal sinnvoll
7B 8–10 GB RAM
13B 16 GB RAM
34B 32 GB RAM
70B 64 GB+ RAM

⚠️ Das sind keine Garantien, sondern realistische Erfahrungswerte.

👉 Wichtig:

  • CPU-Setups brauchen mehr RAM als GPU-Setups
  • gleichzeitige Modelle multiplizieren den Bedarf
  • Swapping = Tod der Performance

Welche Modelle für welchen Zweck?

💬 Chat & Dialog

Anforderungen

  • natürliche Sprache
  • flüssiger Stil
  • Kontextverständnis

Empfehlung

  • LLaMA-basierte 7B–13B
  • Gemma (für strukturierte Antworten)

👉 Größer bringt hier oft nur mehr Gelaber, nicht mehr Qualität.

💻 Code & Technik

Anforderungen

  • logisches Denken
  • Syntax-Verständnis
  • präzise Antworten

Empfehlung

  • Mistral-Varianten
  • Code-spezifische Feintunes

👉 Ein gutes 7B-Code-Modell schlägt oft ein generisches 13B.

📝 Zusammenfassungen

Anforderungen

  • Struktur
  • Reduktion
  • Klarheit

Empfehlung

  • Gemma
  • kleinere LLaMA-Modelle

👉 Hier zählt Prompt + Modell, nicht Größe.

📚 RAG (Retrieval-Augmented Generation)

Anforderungen

  • Kontextverarbeitung
  • präzise Antworten
  • keine Halluzinationen

Empfehlung

  • stabile 7B–13B Modelle
  • Fokus auf Embedding-Qualität, nicht Modellgröße

👉 In RAG-Systemen ist das Wissenssystem wichtiger als das LLM.

Warum „größer“ nicht immer „besser“ ist

Das ist der wichtigste Punkt dieses Artikels.

Große Modelle:

  • sind langsamer
  • brauchen mehr RAM
  • reagieren träger
  • sind schwerer zu kontrollieren

Kleinere Modelle:

  • antworten schneller
  • lassen sich besser prompten
  • sind reproduzierbarer
  • eignen sich besser für Automatisierung

👉 Qualität entsteht aus:

  1. passendem Modell
  2. gutem Prompt
  3. klarem Kontext

Nicht aus schierer Größe.

Fazit: Bewusst wählen statt wild laden

Wenn du lokal arbeitest, gilt eine andere Regel als in der Cloud:

Das beste Modell ist das, das deinen Zweck zuverlässig erfüllt – nicht das größte, das noch startet.

Starte klein. Teste gezielt. Skaliere bewusst.

Dann wird Ollama zum Werkzeug – nicht zum RAM-Fresser.