
Die beste GPU für lokale KI: Kaufberatung 2026
Welche Grafikkarte eignet sich am besten für lokale KI-Modelle? VRAM, Leistung und Stromkosten im Vergleich – von RTX 4060 bis RTX 5090.
Warum ist die GPU der Schlüssel für lokale KI?
Große Sprachmodelle (LLMs) wie Llama 3.1, Mistral oder Gemma bestehen aus Milliarden von Parametern, die bei der Inferenz (Textgenerierung) parallel verarbeitet werden müssen. GPUs mit ihren tausenden CUDA-Kernen sind dafür 5–10× schneller als CPUs.
Der wichtigste Faktor ist dabei nicht die reine Rechenleistung, sondern der VRAM (Video-RAM): Das gesamte Modell muss in den GPU-Speicher passen, sonst wird auf den langsamen System-RAM ausgewichen (Offloading), was die Geschwindigkeit drastisch reduziert.
VRAM-Anforderungen nach Modellgröße
Die benötigte VRAM-Menge hängt von der Modellgröße und der Quantisierung ab. Bei Q4-Quantisierung (4-Bit, Standard in Ollama):
| Modell | Parameter | VRAM (Q4) | Mindest-GPU |
|---|---|---|---|
| Llama 3.2, Phi-3 Mini | 1B–3B | 2–3 GB | ab 4 GB GPU |
| Llama 3.1 8B, Mistral 7B, Gemma 2 9B | 7B–9B | 4–6 GB | ab 8 GB GPU |
| Llama 2 13B, CodeLlama 13B | 13B | 8–9 GB | ab 12 GB GPU |
| CodeLlama 34B, Yi-34B | 34B | 18–20 GB | ab 24 GB GPU |
| Llama 3.1 70B | 70B | 35–40 GB | 2× 24 GB oder 1× 48 GB |
Bei FP16 (volle Präzision) verdoppelt sich der Bedarf. Fazit: VRAM ist die härteste Grenze – wer große Modelle nutzen will, braucht viel VRAM.
NVIDIA Consumer-GPUs im Vergleich
| GPU | VRAM | TDP | Preis (ca.) | Empfehlung |
|---|---|---|---|---|
| RTX 4060 | 8 GB GDDR6 | 115 W | 300 € | Einstieg: 7B–9B Modelle |
| RTX 4060 Ti 16 GB | 16 GB GDDR6 | 165 W | 450 € | Sweet Spot: 13B Modelle |
| RTX 4070 Ti Super | 16 GB GDDR6X | 285 W | 800 € | Schneller bei gleichem VRAM |
| RTX 4090 | 24 GB GDDR6X | 450 W | 1.800 € | Consumer-Maximum: 34B Modelle |
| RTX 5090 | 32 GB GDDR7 | 575 W | ab 1.999 $ (MSRP) | Blackwell-Architektur, 34B+ Modelle |
RTX 4090 – 24 GB VRAM mit extrem schneller Inferenz (80–100 Tokens/s bei 7B-Modellen). Spitzenreiter bei Preis-Leistung für KI-Enthusiasten.
RTX 5090 – 32 GB GDDR7 auf Blackwell-Architektur. MSRP $1.999, aber Marktpreise liegen aufgrund hoher Nachfrage (KI-Boom) aktuell bei $2.900+ für AIB-Modelle. Sinnvoll für 34B+ Modelle, sofern man sie zum Listenpreis bekommt.
Server- und Profi-GPUs
| GPU | VRAM | TDP | Preis | Besonderheit |
|---|---|---|---|---|
| Tesla T4 | 16 GB GDDR6 | 70 W | ab 150 € (gebraucht) | Passiv gekühlt, ideal für 24/7 |
| RTX A4000/A5000 | 16/24 GB GDDR6 | 140–230 W | ab 500 € (gebraucht) | Workstation, leise Turbinen-Kühler |
| A100 40 GB | 40 GB HBM2e | 400 W | ab 3.000 € (gebraucht) | Goldstandard für 70B-Modelle |
Tesla T4 – passiv gekühlt, nur 70 W TDP, ideal als Homelab-GPU für 13B-Modelle im 24/7-Betrieb. Keine Display-Ausgabe (reiner Compute). Gebrauchtpreise ab 150 € machen sie zum Preis-Leistungs-Geheimtipp.
Alternativen: AMD und Apple Silicon
AMD GPUs (ROCm): Die AMD RX 7900 XTX (24 GB, 355 W, ca. 900 €) bietet viel VRAM zum guten Preis. Die Softwareunterstützung (ROCm) hat sich verbessert, ist aber bei weitem nicht so ausgereift wie CUDA – viele Frameworks haben experimentelle oder eingeschränkte AMD-Unterstützung. Für erfahrene Nutzer eine Option, für Einsteiger nicht empfohlen.
Apple Silicon: M1/M2/M3/M4 Pro/Max/Ultra bieten durch Unified Memory (bis 192 GB beim M4 Ultra) einzigartige Vorteile: Selbst 70B-Modelle laufen auf einem einzigen Gerät. Die Inferenzgeschwindigkeit ist gut (30–50 Tokens/s bei 7B), aber langsamer als eine dedizierte NVIDIA-GPU. Ideal für Nutzer, die bereits ein Mac-Gerät besitzen.
Kaufempfehlung nach Budget
| Budget | Empfehlung | VRAM | Geeignet für |
|---|---|---|---|
| Unter 200 € | Gebrauchte Tesla T4 | 16 GB | 13B-Modelle, 24/7-Betrieb |
| 300–500 € | RTX 4060 Ti 16 GB | 16 GB | Bester Allrounder am Desktop |
| 800–1.000 € | RTX 4070 Ti Super / gebrauchte RTX 3090 | 16/24 GB | Mehr Performance / mehr VRAM |
| 1.500–2.200 € | RTX 4090 / RTX 5090 | 24/32 GB | Maximum Consumer-Hardware |
Tipp: Rechne vor dem Kauf die jährlichen Stromkosten mit unserem Inferenzkosten-Rechner durch. Eine RTX 4090 bei 24/7-Betrieb kostet ca. 1.301 €/Jahr an Strom (bei 33 ct/kWh) – bei gelegentlicher Nutzung (2h/Tag) aber nur 108 €/Jahr.
Häufig gestellte Fragen
Reichen 8 GB VRAM für lokale KI?
**Ja, für Modelle bis 9B Parameter wie Llama 3.1 8B oder Mistral 7B.** Für größere Modelle (13B+) brauchst du mindestens 12–16 GB VRAM. 8 GB sind ein guter Einstieg, werden aber schnell zum Engpass.
Lohnt sich eine gebrauchte RTX 3090 für KI?
**Ja, die RTX 3090 mit 24 GB VRAM ist ein exzellenter Gebrauchtkauf für lokale KI.** Sie kostet gebraucht ca. 700–900 € und bietet fast so viel VRAM wie die RTX 4090. Die Inferenz ist ca. 20–30 % langsamer, aber der Preis ist deutlich attraktiver.
Kann ich zwei GPUs für ein Modell nutzen?
**Ja, mit Tensor-Parallelismus können Modelle auf 2+ GPUs aufgeteilt werden.** Tools wie Ollama und vLLM unterstützen Multi-GPU-Setups. Beachte: Die GPUs kommunizieren über PCIe, was langsamer ist als NVLink – der Geschwindigkeitszuwachs ist daher nicht linear.
Verwandte Tabellen
Quellen
- [1] NVIDIA – GPU-Spezifikationen (nvidia.com)
- [2] Meta AI – Llama 3.1 / 3.2 Model Cards (llama.meta.com)
- [3] Tom's Hardware – GPU-Benchmarks für LLM-Inferenz 2025
- [4] Ollama – Supported Models & Hardware Requirements (ollama.com)
- [5] TechPowerUp – RTX 5090 Review und Marktpreise 2026