Lokale KI mit Ollama: Anleitung für Einsteiger
KI12 Min.· 2026-03-08

Lokale KI mit Ollama: Anleitung für Einsteiger

So betreibst du KI-Modelle wie Llama 3.1 oder Mistral lokal auf deinem PC – kostenlos, privat und ohne Cloud-Anbindung. Schritt-für-Schritt mit Ollama.

Warum KI lokal betreiben?

Cloud-basierte KI-Dienste wie ChatGPT oder Claude sind bequem, aber sie haben Nachteile:

  • Du zahlst pro Anfrage oder Abonnement
  • Deine Daten werden an Dritte übermittelt
  • Du bist von einer Internetverbindung abhängig

Lokale KI-Modelle lösen alle drei Probleme. Mit Tools wie Ollama kannst du leistungsfähige Sprachmodelle direkt auf deinem PC oder Homelab-Server betreiben – völlig kostenlos, ohne Datenweitergabe und ohne Internetpflicht.

Besonders für sensible Aufgaben (Texte zusammenfassen, Code-Reviews, persönliche Assistenten) ist das ein großer Vorteil.

Was ist Ollama?

Ollama ist ein Open-Source-Tool, das die Installation und Verwaltung lokaler Sprachmodelle drastisch vereinfacht. Statt manuell mit Python-Umgebungen, CUDA-Treibern und Modellgewichten zu hantieren, genügt ein einziger Befehl:

ollama run llama3.1

Das Modell wird automatisch heruntergeladen und gestartet. Ollama unterstützt alle gängigen offenen Modelle:

  • Llama 3.1 (Meta) – 8B/70B/405B Parameter
  • Llama 3.2 (Meta) – 1B/3B (Text), 11B/90B (Multimodal)
  • Mistral / Mixtral (Mistral AI)
  • Gemma 2 (Google)
  • Phi-3 (Microsoft)
  • CodeLlama – spezialisiert auf Code

Es läuft auf macOS, Linux und Windows und bietet eine REST-API, über die andere Anwendungen (z. B. Open WebUI) auf die Modelle zugreifen können.

Hardware-Anforderungen

Die wichtigste Ressource für lokale KI ist der Arbeitsspeicher – entweder RAM (CPU-Inferenz) oder VRAM (GPU-Inferenz).

ModellParameterMin. RAM/VRAMGPU-Beispiel
Llama 3.2 3B, Phi-3 Mini3B4 GBJede moderne GPU
Llama 3.1 8B, Mistral 7B7B–8B8 GBRTX 4060 (8 GB)
Llama 2 13B, CodeLlama 13B13B16 GBRTX 4060 Ti 16 GB
Llama 3.1 70B70B48–64 GB2× RTX 4090 / Mac M4 Ultra

GPU-Inferenz ist 5–10× schneller als CPU-Inferenz. Apple Silicon (M1 Pro/Max/Ultra bis M4) bietet dank Unified Memory hervorragende Leistung – ein MacBook Pro mit 32 GB kann 13B-Modelle flüssig betreiben.

Installation Schritt für Schritt

Die Installation von Ollama ist einfach:

  • macOS: brew install ollama oder den Installer von ollama.com
  • Linux: curl -fsSL https://ollama.com/install.sh | sh
  • Windows: Den Installer von der Website herunterladen und ausführen

Nach der Installation startest du dein erstes Modell mit:

ollama run llama3.1

Der Download (ca. 4,7 GB für das 8B-Modell in Q4-Quantisierung) beginnt automatisch.

Für eine Web-Oberfläche empfiehlt sich Open WebUI: Es kann per Docker installiert werden und bietet eine ChatGPT-ähnliche Benutzeroberfläche für deine lokalen Modelle.

Welches Modell für welchen Zweck?

Nicht jedes Modell eignet sich für jede Aufgabe:

ModellParameterStärkeMin. VRAM
Llama 3.1 8B8BAllrounder: Chat, Zusammenfassungen, Fragen8 GB
Llama 3.1 70B70BTop-Qualität, komplexe Aufgaben48+ GB
Mistral 7B / Mixtral 8x7B7B / 47BSchnell, guter Deutsch-Support8 / 32 GB
CodeLlama 13B13BCode-Generierung und Debugging16 GB
Gemma 2 9B9BFaktenfragen, kompakt8 GB
Phi-3 Mini3,8BUltraleicht, läuft auf älteren Laptops4 GB
Llama 3.2 11B Vision11BMultimodal: Text + Bildverständnis12 GB

Tipp: Starte mit dem kleinen Modell und teste, ob die Qualität für deinen Anwendungsfall reicht. Größer bedeutet langsamer, aber nicht immer besser.

Kosten: Lokal vs. Cloud-API

Die laufenden Kosten lokaler KI bestehen nur aus Strom. Ein PC mit GPU verbraucht während der Inferenz typischerweise 200–350 W.

SzenarioKosten/MonatKosten/Jahr
Lokale GPU (2h/Tag, 300 W, 33 ct/kWh)~6 €~72 €
Lokale GPU (8h/Tag, 300 W, 33 ct/kWh)~24 €~290 €
OpenAI API (GPT-4o, ~50 Anfragen/Tag)30–60 €360–720 €
Claude Pro Abo~20 $~240 $

Ab ca. 500 Anfragen pro Monat lohnt sich die lokale Lösung finanziell. Der größte Vorteil ist aber die Kostenkontrolle: Nach der Hardware-Investition fallen nur noch Stromkosten an, egal wie viel du die KI nutzt.

Nutze unseren Inferenzkosten-Rechner für eine genaue Gegenüberstellung.

Häufig gestellte Fragen

Brauche ich eine NVIDIA-GPU für Ollama?

**Nein, Ollama läuft auch auf der CPU oder mit Apple Silicon.** Eine NVIDIA-GPU beschleunigt die Inferenz aber um den Faktor 5–10×. AMD-GPUs werden experimentell unterstützt (ROCm). Für gelegentliche Nutzung reicht die CPU.

Wie viel Speicherplatz brauchen die Modelle?

**3B-Modelle benötigen ca. 2 GB, 8B-Modelle ca. 4,7 GB, 13B ca. 8 GB und 70B ca. 40 GB.** Die Modelle werden quantisiert (komprimiert) gespeichert. Ollama lädt sie automatisch herunter und verwaltet den Speicher.

Kann Ollama mehrere Modelle gleichzeitig laden?

**Ja, aber jedes Modell belegt RAM/VRAM.** Du kannst zwischen Modellen wechseln – Ollama entlädt inaktive Modelle nach einer konfigurierbaren Timeout-Dauer automatisch aus dem Speicher.

Ist die Qualität lokaler Modelle vergleichbar mit ChatGPT?

**Llama 3.1 70B erreicht in vielen Benchmarks GPT-4-Niveau.** Kleinere Modelle (7B–13B) sind bei komplexen Aufgaben schwächer, für alltägliche Aufgaben wie Zusammenfassungen oder Übersetzungen aber oft ausreichend.

Verwandte Tabellen

Quellen

  • [1] Ollama – Offizielle Dokumentation (ollama.com)
  • [2] Meta AI – Llama 3.1 / 3.2 Model Cards (llama.meta.com)
  • [3] OpenAI – API Pricing (Stand: März 2026)
  • [4] Bundesnetzagentur – Strompreise 2025/2026