KI· 2026-03-08

Lokale KI betreiben: GPU, Kosten, Setup – Der Komplettguide

Lokale KI-Modelle auf eigener GPU betreiben: Kosten vs. API, VRAM-Anforderungen, GPU-Auswahl und Ollama-Setup – alles in einem Guide.

PASSENDE RECHNER

Warum lokale KI? Datenschutz, Kosten, Kontrolle

Lokale KI-Modelle laufen auf deiner eigenen Hardware – ohne dass Daten an externe Server gesendet werden. Das ist nicht nur datenschutzfreundlich, sondern kann bei hoher Nutzung auch deutlich günstiger sein als API-Dienste wie OpenAI oder Anthropic.

  • 100 % Datenschutz – deine Daten verlassen nie deinen Rechner
  • Keine monatlichen API-Gebühren bei hoher Nutzung
  • Keine Rate-Limits oder Abhängigkeit von externen Diensten
  • Volle Kontrolle über Modell, Quantisierung und Parameter
  • Viele leistungsfähige Open-Source-Modelle verfügbar (Llama, Mistral, Qwen)
  • Offline-fähig – funktioniert auch ohne Internetverbindung

Lokal vs. API: Der ehrliche Kostenvergleich

Die entscheidende Frage: Ab wann lohnt sich lokale KI finanziell? Die Antwort hängt von deinem Nutzungsprofil ab. Hier die Berechnung für verschiedene Szenarien:

~50Break-Even (Anfragen/Tag)Ab hier ist lokal günstiger als API
85 %Ersparnis (intensiv)200 Anfragen/Tag lokal vs. GPT-4o API
0 €Modell-LizenzLlama, Mistral, Qwen sind Open Source
SzenarioAnfragen/TagAPI-Kosten/JahrLokal (Strom)/JahrErsparnis
Gering1036–180 €52–130 €❌ API günstiger
Mittel50180–900 €52–130 €✓ Lokal spart 50–85 %
Intensiv200720–3.600 €130–260 €✓ Lokal spart 80–93 %
Profi500+1.800–9.000 €260–520 €✓ Lokal spart 85–94 %

API: GPT-4o mini ($0,15/1M In) bis GPT-4o ($2,50/1M In). Lokal: RTX 4060–4090, 4–8 h/Tag, 39,5 ct/kWh.

Formel: API-Kosten pro AnfrageKosten = (Input-Tokens + Output-Tokens) × Preis pro Token. Beispiel GPT-4o: 500 Input + 500 Output = 1.000 Tokens × $5/1M = $0,005 pro Anfrage. Bei 200 Anfragen/Tag: $1/Tag = $365/Jahr ≈ 335 €/Jahr.
Inferenzkosten vergleichen

Die richtige GPU: VRAM ist King

Für lokale KI ist der VRAM (Videospeicher) der entscheidende Faktor – nicht die rohe Rechenleistung. Je größer das Modell, desto mehr VRAM brauchst du. Hier der aktuelle GPU-Vergleich:

GPUVRAMTDPStrom/JahrPreis (neu)Preis/GB VRAM
RTX 3060 12GB12 GB170 W~233 €~280 €23 €/GB
RTX 4060 Ti 16GB16 GB165 W~226 €~450 €28 €/GB
RTX 3090 24GB24 GB350 W~480 €~500 € (gebr.)21 €/GB ★
RTX 4090 24GB24 GB450 W~617 €~1.800 €75 €/GB
RTX 5070 12GB12 GB250 W~343 €~550 €46 €/GB
RTX 5070 Ti 16GB16 GB300 W~412 €~750 €47 €/GB
RTX 5090 32GB32 GB575 W~789 €~1.900 €59 €/GB
2× RTX 309048 GB700 W~961 €~1.000 € (gebr.)21 €/GB ★

Stromkosten bei 4 h KI-Nutzung/Tag, 39,5 ct/kWh. ★ Bestes Preis-VRAM-Verhältnis.

Empfehlung nach BudgetBudget (unter 300 €): RTX 3060 12GB – reicht für 7B-Modelle. Mittelklasse (500 €): RTX 3090 24GB gebraucht – bestes VRAM/Euro. High-End (1.800 €+): RTX 4090 24GB – beste Single-GPU-Performance.
GPU-Verbrauch vergleichen

Wie viel VRAM braucht welches LLM-Modell?

Die VRAM-Anforderungen hängen von Modellgröße und Quantisierung ab. Quantisierung (Q4, Q8) reduziert den VRAM-Bedarf drastisch bei minimalem Qualitätsverlust:

ModellParameterFP16 (VRAM)Q8 (VRAM)Q4 (VRAM)Min. GPU
Llama 3.23B6 GB3,5 GB2 GBRTX 3060 12GB
Llama 3.18B16 GB8,5 GB5 GBRTX 3060 12GB
Mistral7B14 GB7,5 GB4,5 GBRTX 3060 12GB
Qwen 2.514B28 GB15 GB8,5 GBRTX 4060 Ti 16GB
Llama 3.170B140 GB75 GB40 GB2× RTX 3090 (Q4)
Mixtral 8×7B46.7B (MoE)93 GB50 GB28 GBRTX 5090 32GB
Llama 3.1405B810 GB430 GB230 GB8× A100 80GB

FP16 = volle Präzision. Q8 = 8-Bit-Quantisierung (~1 % Qualitätsverlust). Q4 = 4-Bit (~3–5 % Qualitätsverlust).

Formel: VRAM-Bedarf schätzenFP16: Parameter × 2 Bytes. Q8: Parameter × 1 Byte + 10 % Overhead. Q4: Parameter × 0,5 Byte + 20 % Overhead. Beispiel Llama 3.1 8B in Q4: 8B × 0,5 + 20 % = 4,8 GB VRAM.
VRAM-Tabelle ansehen

Ollama: KI-Modelle in 5 Minuten starten

Ollama ist der einfachste Weg, LLMs lokal zu betreiben. Drei Befehle und dein erstes Modell läuft:

Empfohlenes ModellParameterDownloadGeschwindigkeit (4090)Ideal für
llama3.2:3b3B2 GB120+ tok/sSchnelle Antworten, Code
llama3.1:8b8B4,7 GB80 tok/sAllround, beste Balance
mistral:7b7B4,1 GB85 tok/sEuropäisch, gut auf Deutsch
qwen2.5:14b14B9 GB45 tok/sCoding, Mathematik
llama3.1:70b-q470B40 GB18 tok/sMaximale Qualität

Geschwindigkeit gemessen auf RTX 4090. Kleinere GPUs entsprechend langsamer.

  • Installation: curl -fsSL https://ollama.com/install.sh | sh (Linux/macOS) oder Installer (Windows)
  • Modell laden: ollama pull llama3.1:8b (lädt ca. 4,7 GB in Q4-Quantisierung)
  • Chat starten: ollama run llama3.1:8b – sofort interaktiv nutzbar
  • Web-UI: Open WebUI installieren für ChatGPT-ähnliche Oberfläche
  • API: Ollama bietet eine REST-API auf localhost:11434 – kompatibel mit OpenAI-Format
Ollama-Anleitung lesen

KI-API Preise 2026 im Vergleich

Falls dein Nutzungsprofil gering ist, kann eine API-Lösung günstiger sein. Hier die aktuellen Preise der wichtigsten Anbieter:

0,002 €Lokal pro AnfrageRTX 4090, Llama 3.1 8B, nur Strom
5,80 €GPT-4o pro 1K Anfragen2.900× teurer als lokal
0,23 €Günstigste APIGemini 2.0 Flash – aber Daten bei Google
ModellAnbieterInput ($/1M Tok)Output ($/1M Tok)~€/1000 Anfragen
GPT-4o miniOpenAI$0,15$0,60~0,35 €
GPT-4oOpenAI$2,50$10,00~5,80 €
Claude Haiku 4.5Anthropic$1,00$5,00~2,75 €
Claude Sonnet 4Anthropic$3,00$15,00~8,30 €
Gemini 2.0 FlashGoogle$0,10$0,40~0,23 €
Llama 3.1 70B (API)Together AI$0,88$0,88~0,81 €
Llama 3.1 8B (lokal)0 €0 €Nur Strom: ~0,002 €

Preise Stand März 2026. Berechnung: ~500 Input + 500 Output Tokens pro Anfrage.

API-Preise vergleichen

Was kostet deine GPU im Dauerbetrieb?

Auch im Leerlauf verbraucht eine GPU Strom. Bei KI-Nutzung mit Volllast steigt der Verbrauch drastisch. Hier eine Übersicht der jährlichen Stromkosten bei verschiedenen Nutzungsszenarien:

GPUTDP2 h/Tag4 h/Tag8 h/Tag24/7
RTX 3060 12GB170 W49 €98 €196 €588 €
RTX 4060 Ti165 W48 €95 €190 €571 €
RTX 3090350 W101 €202 €403 €1.210 €
RTX 4090450 W130 €260 €519 €1.557 €
RTX 5070250 W72 €144 €289 €866 €
RTX 5070 Ti300 W87 €173 €346 €1.038 €
RTX 5090575 W166 €332 €664 €1.991 €

Berechnung: TDP × Stunden × 365 Tage ÷ 1.000 × 0,395 €/kWh. Realer Verbrauch unter KI-Last ca. 85–95 % TDP.

Formel: GPU-Stromkosten pro JahrKosten = TDP (W) × Stunden/Tag × 365 ÷ 1.000 × Strompreis (€/kWh). Beispiel RTX 4090, 4 h/Tag: 450 W × 4 h × 365 ÷ 1.000 × 0,395 € = 259,57 €/Jahr.
GPU-Stromkosten berechnen

Häufig gestellte Fragen

Lohnt sich lokale KI finanziell?

Ab ca. 50 Anfragen pro Tag ist lokale Inferenz günstiger als API-Dienste. Der Break-Even-Punkt hängt von GPU-Kosten, Strompreis und API-Modellpreisen ab. Unser Inferenzkosten-Rechner berechnet den exakten Umschlagpunkt für dein Nutzungsprofil.

Welche GPU brauche ich für lokale KI?

Für 7B-Modelle: RTX 3060 12GB (ab ~280 €). Für 13B-Modelle: RTX 4060 Ti 16GB (~450 €). Für 70B-Modelle: RTX 3090 24GB gebraucht (~500 €) in Q4-Quantisierung. Der VRAM ist der entscheidende Faktor, nicht die Rechenleistung.

Kann ich KI auf einem Mini-PC laufen lassen?

Nur sehr kleine Modelle (bis 3B Parameter) laufen auf CPU mit akzeptabler Geschwindigkeit. Für ernsthafte KI-Nutzung brauchst du eine dedizierte GPU mit mindestens 8 GB VRAM.

Ist lokale KI langsamer als die API?

Kommt auf die GPU an. Eine RTX 4090 schafft bei Llama 3.1 8B ca. 80 Tokens/Sekunde – vergleichbar mit GPT-4o. Bei größeren Modellen (70B) sinkt die Geschwindigkeit auf 15–25 Tokens/Sekunde.

AMD oder NVIDIA für lokale KI?

NVIDIA ist der Standard dank CUDA-Unterstützung. AMD-GPUs (ROCm) werden besser, haben aber noch Kompatibilitätslücken. Für zuverlässige lokale KI empfehlen wir NVIDIA.

Verwandte Ratgeber

Verwandte Tabellen

Weitere Spezial-Themen