Lokale KI betreiben: GPU, Kosten, Setup – Der Komplettguide
Lokale KI-Modelle auf eigener GPU betreiben: Kosten vs. API, VRAM-Anforderungen, GPU-Auswahl und Ollama-Setup – alles in einem Guide.
PASSENDE RECHNER
Warum lokale KI? Datenschutz, Kosten, Kontrolle
Lokale KI-Modelle laufen auf deiner eigenen Hardware – ohne dass Daten an externe Server gesendet werden. Das ist nicht nur datenschutzfreundlich, sondern kann bei hoher Nutzung auch deutlich günstiger sein als API-Dienste wie OpenAI oder Anthropic.
- 100 % Datenschutz – deine Daten verlassen nie deinen Rechner
- Keine monatlichen API-Gebühren bei hoher Nutzung
- Keine Rate-Limits oder Abhängigkeit von externen Diensten
- Volle Kontrolle über Modell, Quantisierung und Parameter
- Viele leistungsfähige Open-Source-Modelle verfügbar (Llama, Mistral, Qwen)
- Offline-fähig – funktioniert auch ohne Internetverbindung
Lokal vs. API: Der ehrliche Kostenvergleich
Die entscheidende Frage: Ab wann lohnt sich lokale KI finanziell? Die Antwort hängt von deinem Nutzungsprofil ab. Hier die Berechnung für verschiedene Szenarien:
| Szenario | Anfragen/Tag | API-Kosten/Jahr | Lokal (Strom)/Jahr | Ersparnis |
|---|---|---|---|---|
| Gering | 10 | 36–180 € | 52–130 € | ❌ API günstiger |
| Mittel | 50 | 180–900 € | 52–130 € | ✓ Lokal spart 50–85 % |
| Intensiv | 200 | 720–3.600 € | 130–260 € | ✓ Lokal spart 80–93 % |
| Profi | 500+ | 1.800–9.000 € | 260–520 € | ✓ Lokal spart 85–94 % |
API: GPT-4o mini ($0,15/1M In) bis GPT-4o ($2,50/1M In). Lokal: RTX 4060–4090, 4–8 h/Tag, 39,5 ct/kWh.
Die richtige GPU: VRAM ist King
Für lokale KI ist der VRAM (Videospeicher) der entscheidende Faktor – nicht die rohe Rechenleistung. Je größer das Modell, desto mehr VRAM brauchst du. Hier der aktuelle GPU-Vergleich:
| GPU | VRAM | TDP | Strom/Jahr | Preis (neu) | Preis/GB VRAM |
|---|---|---|---|---|---|
| RTX 3060 12GB | 12 GB | 170 W | ~233 € | ~280 € | 23 €/GB |
| RTX 4060 Ti 16GB | 16 GB | 165 W | ~226 € | ~450 € | 28 €/GB |
| RTX 3090 24GB | 24 GB | 350 W | ~480 € | ~500 € (gebr.) | 21 €/GB ★ |
| RTX 4090 24GB | 24 GB | 450 W | ~617 € | ~1.800 € | 75 €/GB |
| RTX 5070 12GB | 12 GB | 250 W | ~343 € | ~550 € | 46 €/GB |
| RTX 5070 Ti 16GB | 16 GB | 300 W | ~412 € | ~750 € | 47 €/GB |
| RTX 5090 32GB | 32 GB | 575 W | ~789 € | ~1.900 € | 59 €/GB |
| 2× RTX 3090 | 48 GB | 700 W | ~961 € | ~1.000 € (gebr.) | 21 €/GB ★ |
Stromkosten bei 4 h KI-Nutzung/Tag, 39,5 ct/kWh. ★ Bestes Preis-VRAM-Verhältnis.
Wie viel VRAM braucht welches LLM-Modell?
Die VRAM-Anforderungen hängen von Modellgröße und Quantisierung ab. Quantisierung (Q4, Q8) reduziert den VRAM-Bedarf drastisch bei minimalem Qualitätsverlust:
| Modell | Parameter | FP16 (VRAM) | Q8 (VRAM) | Q4 (VRAM) | Min. GPU |
|---|---|---|---|---|---|
| Llama 3.2 | 3B | 6 GB | 3,5 GB | 2 GB | RTX 3060 12GB |
| Llama 3.1 | 8B | 16 GB | 8,5 GB | 5 GB | RTX 3060 12GB |
| Mistral | 7B | 14 GB | 7,5 GB | 4,5 GB | RTX 3060 12GB |
| Qwen 2.5 | 14B | 28 GB | 15 GB | 8,5 GB | RTX 4060 Ti 16GB |
| Llama 3.1 | 70B | 140 GB | 75 GB | 40 GB | 2× RTX 3090 (Q4) |
| Mixtral 8×7B | 46.7B (MoE) | 93 GB | 50 GB | 28 GB | RTX 5090 32GB |
| Llama 3.1 | 405B | 810 GB | 430 GB | 230 GB | 8× A100 80GB |
FP16 = volle Präzision. Q8 = 8-Bit-Quantisierung (~1 % Qualitätsverlust). Q4 = 4-Bit (~3–5 % Qualitätsverlust).
Ollama: KI-Modelle in 5 Minuten starten
Ollama ist der einfachste Weg, LLMs lokal zu betreiben. Drei Befehle und dein erstes Modell läuft:
| Empfohlenes Modell | Parameter | Download | Geschwindigkeit (4090) | Ideal für |
|---|---|---|---|---|
| llama3.2:3b | 3B | 2 GB | 120+ tok/s | Schnelle Antworten, Code |
| llama3.1:8b | 8B | 4,7 GB | 80 tok/s | Allround, beste Balance |
| mistral:7b | 7B | 4,1 GB | 85 tok/s | Europäisch, gut auf Deutsch |
| qwen2.5:14b | 14B | 9 GB | 45 tok/s | Coding, Mathematik |
| llama3.1:70b-q4 | 70B | 40 GB | 18 tok/s | Maximale Qualität |
Geschwindigkeit gemessen auf RTX 4090. Kleinere GPUs entsprechend langsamer.
- Installation: curl -fsSL https://ollama.com/install.sh | sh (Linux/macOS) oder Installer (Windows)
- Modell laden: ollama pull llama3.1:8b (lädt ca. 4,7 GB in Q4-Quantisierung)
- Chat starten: ollama run llama3.1:8b – sofort interaktiv nutzbar
- Web-UI: Open WebUI installieren für ChatGPT-ähnliche Oberfläche
- API: Ollama bietet eine REST-API auf localhost:11434 – kompatibel mit OpenAI-Format
KI-API Preise 2026 im Vergleich
Falls dein Nutzungsprofil gering ist, kann eine API-Lösung günstiger sein. Hier die aktuellen Preise der wichtigsten Anbieter:
| Modell | Anbieter | Input ($/1M Tok) | Output ($/1M Tok) | ~€/1000 Anfragen |
|---|---|---|---|---|
| GPT-4o mini | OpenAI | $0,15 | $0,60 | ~0,35 € |
| GPT-4o | OpenAI | $2,50 | $10,00 | ~5,80 € |
| Claude Haiku 4.5 | Anthropic | $1,00 | $5,00 | ~2,75 € |
| Claude Sonnet 4 | Anthropic | $3,00 | $15,00 | ~8,30 € |
| Gemini 2.0 Flash | $0,10 | $0,40 | ~0,23 € | |
| Llama 3.1 70B (API) | Together AI | $0,88 | $0,88 | ~0,81 € |
| Llama 3.1 8B (lokal) | – | 0 € | 0 € | Nur Strom: ~0,002 € |
Preise Stand März 2026. Berechnung: ~500 Input + 500 Output Tokens pro Anfrage.
Was kostet deine GPU im Dauerbetrieb?
Auch im Leerlauf verbraucht eine GPU Strom. Bei KI-Nutzung mit Volllast steigt der Verbrauch drastisch. Hier eine Übersicht der jährlichen Stromkosten bei verschiedenen Nutzungsszenarien:
| GPU | TDP | 2 h/Tag | 4 h/Tag | 8 h/Tag | 24/7 |
|---|---|---|---|---|---|
| RTX 3060 12GB | 170 W | 49 € | 98 € | 196 € | 588 € |
| RTX 4060 Ti | 165 W | 48 € | 95 € | 190 € | 571 € |
| RTX 3090 | 350 W | 101 € | 202 € | 403 € | 1.210 € |
| RTX 4090 | 450 W | 130 € | 260 € | 519 € | 1.557 € |
| RTX 5070 | 250 W | 72 € | 144 € | 289 € | 866 € |
| RTX 5070 Ti | 300 W | 87 € | 173 € | 346 € | 1.038 € |
| RTX 5090 | 575 W | 166 € | 332 € | 664 € | 1.991 € |
Berechnung: TDP × Stunden × 365 Tage ÷ 1.000 × 0,395 €/kWh. Realer Verbrauch unter KI-Last ca. 85–95 % TDP.
Häufig gestellte Fragen
Lohnt sich lokale KI finanziell?
Ab ca. 50 Anfragen pro Tag ist lokale Inferenz günstiger als API-Dienste. Der Break-Even-Punkt hängt von GPU-Kosten, Strompreis und API-Modellpreisen ab. Unser Inferenzkosten-Rechner berechnet den exakten Umschlagpunkt für dein Nutzungsprofil.
Welche GPU brauche ich für lokale KI?
Für 7B-Modelle: RTX 3060 12GB (ab ~280 €). Für 13B-Modelle: RTX 4060 Ti 16GB (~450 €). Für 70B-Modelle: RTX 3090 24GB gebraucht (~500 €) in Q4-Quantisierung. Der VRAM ist der entscheidende Faktor, nicht die Rechenleistung.
Kann ich KI auf einem Mini-PC laufen lassen?
Nur sehr kleine Modelle (bis 3B Parameter) laufen auf CPU mit akzeptabler Geschwindigkeit. Für ernsthafte KI-Nutzung brauchst du eine dedizierte GPU mit mindestens 8 GB VRAM.
Ist lokale KI langsamer als die API?
Kommt auf die GPU an. Eine RTX 4090 schafft bei Llama 3.1 8B ca. 80 Tokens/Sekunde – vergleichbar mit GPT-4o. Bei größeren Modellen (70B) sinkt die Geschwindigkeit auf 15–25 Tokens/Sekunde.
AMD oder NVIDIA für lokale KI?
NVIDIA ist der Standard dank CUDA-Unterstützung. AMD-GPUs (ROCm) werden besser, haben aber noch Kompatibilitätslücken. Für zuverlässige lokale KI empfehlen wir NVIDIA.