
Lokale KI mit Ollama: Anleitung für Einsteiger
So betreibst du KI-Modelle wie Llama 3.1 oder Mistral lokal auf deinem PC – kostenlos, privat und ohne Cloud-Anbindung. Schritt-für-Schritt mit Ollama.
Warum KI lokal betreiben?
Cloud-basierte KI-Dienste wie ChatGPT oder Claude sind bequem, aber sie haben Nachteile:
- Du zahlst pro Anfrage oder Abonnement
- Deine Daten werden an Dritte übermittelt
- Du bist von einer Internetverbindung abhängig
Lokale KI-Modelle lösen alle drei Probleme. Mit Tools wie Ollama kannst du leistungsfähige Sprachmodelle direkt auf deinem PC oder Homelab-Server betreiben – völlig kostenlos, ohne Datenweitergabe und ohne Internetpflicht.
Besonders für sensible Aufgaben (Texte zusammenfassen, Code-Reviews, persönliche Assistenten) ist das ein großer Vorteil.
Was ist Ollama?
Ollama ist ein Open-Source-Tool, das die Installation und Verwaltung lokaler Sprachmodelle drastisch vereinfacht. Statt manuell mit Python-Umgebungen, CUDA-Treibern und Modellgewichten zu hantieren, genügt ein einziger Befehl:
ollama run llama3.1
Das Modell wird automatisch heruntergeladen und gestartet. Ollama unterstützt alle gängigen offenen Modelle:
- Llama 3.1 (Meta) – 8B/70B/405B Parameter
- Llama 3.2 (Meta) – 1B/3B (Text), 11B/90B (Multimodal)
- Mistral / Mixtral (Mistral AI)
- Gemma 2 (Google)
- Phi-3 (Microsoft)
- CodeLlama – spezialisiert auf Code
Es läuft auf macOS, Linux und Windows und bietet eine REST-API, über die andere Anwendungen (z. B. Open WebUI) auf die Modelle zugreifen können.
Hardware-Anforderungen
Die wichtigste Ressource für lokale KI ist der Arbeitsspeicher – entweder RAM (CPU-Inferenz) oder VRAM (GPU-Inferenz).
| Modell | Parameter | Min. RAM/VRAM | GPU-Beispiel |
|---|---|---|---|
| Llama 3.2 3B, Phi-3 Mini | 3B | 4 GB | Jede moderne GPU |
| Llama 3.1 8B, Mistral 7B | 7B–8B | 8 GB | RTX 4060 (8 GB) |
| Llama 2 13B, CodeLlama 13B | 13B | 16 GB | RTX 4060 Ti 16 GB |
| Llama 3.1 70B | 70B | 48–64 GB | 2× RTX 4090 / Mac M4 Ultra |
GPU-Inferenz ist 5–10× schneller als CPU-Inferenz. Apple Silicon (M1 Pro/Max/Ultra bis M4) bietet dank Unified Memory hervorragende Leistung – ein MacBook Pro mit 32 GB kann 13B-Modelle flüssig betreiben.
Installation Schritt für Schritt
Die Installation von Ollama ist einfach:
- macOS:
brew install ollamaoder den Installer von ollama.com - Linux:
curl -fsSL https://ollama.com/install.sh | sh - Windows: Den Installer von der Website herunterladen und ausführen
Nach der Installation startest du dein erstes Modell mit:
ollama run llama3.1
Der Download (ca. 4,7 GB für das 8B-Modell in Q4-Quantisierung) beginnt automatisch.
Für eine Web-Oberfläche empfiehlt sich Open WebUI: Es kann per Docker installiert werden und bietet eine ChatGPT-ähnliche Benutzeroberfläche für deine lokalen Modelle.
Welches Modell für welchen Zweck?
Nicht jedes Modell eignet sich für jede Aufgabe:
| Modell | Parameter | Stärke | Min. VRAM |
|---|---|---|---|
| Llama 3.1 8B | 8B | Allrounder: Chat, Zusammenfassungen, Fragen | 8 GB |
| Llama 3.1 70B | 70B | Top-Qualität, komplexe Aufgaben | 48+ GB |
| Mistral 7B / Mixtral 8x7B | 7B / 47B | Schnell, guter Deutsch-Support | 8 / 32 GB |
| CodeLlama 13B | 13B | Code-Generierung und Debugging | 16 GB |
| Gemma 2 9B | 9B | Faktenfragen, kompakt | 8 GB |
| Phi-3 Mini | 3,8B | Ultraleicht, läuft auf älteren Laptops | 4 GB |
| Llama 3.2 11B Vision | 11B | Multimodal: Text + Bildverständnis | 12 GB |
Tipp: Starte mit dem kleinen Modell und teste, ob die Qualität für deinen Anwendungsfall reicht. Größer bedeutet langsamer, aber nicht immer besser.
Kosten: Lokal vs. Cloud-API
Die laufenden Kosten lokaler KI bestehen nur aus Strom. Ein PC mit GPU verbraucht während der Inferenz typischerweise 200–350 W.
| Szenario | Kosten/Monat | Kosten/Jahr |
|---|---|---|
| Lokale GPU (2h/Tag, 300 W, 33 ct/kWh) | ~6 € | ~72 € |
| Lokale GPU (8h/Tag, 300 W, 33 ct/kWh) | ~24 € | ~290 € |
| OpenAI API (GPT-4o, ~50 Anfragen/Tag) | 30–60 € | 360–720 € |
| Claude Pro Abo | ~20 $ | ~240 $ |
Ab ca. 500 Anfragen pro Monat lohnt sich die lokale Lösung finanziell. Der größte Vorteil ist aber die Kostenkontrolle: Nach der Hardware-Investition fallen nur noch Stromkosten an, egal wie viel du die KI nutzt.
Nutze unseren Inferenzkosten-Rechner für eine genaue Gegenüberstellung.
Häufig gestellte Fragen
Brauche ich eine NVIDIA-GPU für Ollama?
**Nein, Ollama läuft auch auf der CPU oder mit Apple Silicon.** Eine NVIDIA-GPU beschleunigt die Inferenz aber um den Faktor 5–10×. AMD-GPUs werden experimentell unterstützt (ROCm). Für gelegentliche Nutzung reicht die CPU.
Wie viel Speicherplatz brauchen die Modelle?
**3B-Modelle benötigen ca. 2 GB, 8B-Modelle ca. 4,7 GB, 13B ca. 8 GB und 70B ca. 40 GB.** Die Modelle werden quantisiert (komprimiert) gespeichert. Ollama lädt sie automatisch herunter und verwaltet den Speicher.
Kann Ollama mehrere Modelle gleichzeitig laden?
**Ja, aber jedes Modell belegt RAM/VRAM.** Du kannst zwischen Modellen wechseln – Ollama entlädt inaktive Modelle nach einer konfigurierbaren Timeout-Dauer automatisch aus dem Speicher.
Ist die Qualität lokaler Modelle vergleichbar mit ChatGPT?
**Llama 3.1 70B erreicht in vielen Benchmarks GPT-4-Niveau.** Kleinere Modelle (7B–13B) sind bei komplexen Aufgaben schwächer, für alltägliche Aufgaben wie Zusammenfassungen oder Übersetzungen aber oft ausreichend.
Verwandte Tabellen
Quellen
- [1] Ollama – Offizielle Dokumentation (ollama.com)
- [2] Meta AI – Llama 3.1 / 3.2 Model Cards (llama.meta.com)
- [3] OpenAI – API Pricing (Stand: März 2026)
- [4] Bundesnetzagentur – Strompreise 2025/2026