KI-Modell Inferenzkosten-Rechner
Lokale GPU vs. API – was kostet dich eine KI-Anfrage wirklich?
LOKALE GPU
W
tok/s
ct/kWh
API (CLOUD)
$/1M Tok
$/1M Tok
NUTZUNG
Req/Tag
Token
%
LOKAL
3,75 €pro MonatPro Anfrage0,00 €
Pro Tag0,12 €
Pro Jahr45,05 €
API
18,47 €pro MonatPro Anfrage0,01 €
Pro Tag0,61 €
Pro Jahr221,63 €
Tipps zu KI-Inferenzkosten
VRAM ist entscheidend
Der VRAM deiner GPU bestimmt, welche Modelle du lokal betreiben kannst. 7B-Modelle brauchen ca. 6 GB, 13B ca. 10 GB, 70B ca. 40 GB VRAM (bei Q4-Quantisierung).
Quantisierung spart Kosten
Q4-quantisierte Modelle brauchen ~50 % weniger VRAM als FP16 bei nur ~3 % Qualitätsverlust. Das halbiert die Hardware-Anforderungen und damit die Kosten.
Batch-Anfragen vs. Einzeln
API-Anbieter bieten oft Batch-Rabatte (bis -50 %). Wenn deine Anfragen nicht zeitkritisch sind, können Batch-APIs wie OpenAI Batch deutlich günstiger sein.
Häufig gestellte Fragen
Inferenzkosten entstehen bei jeder KI-Anfrage - egal ob lokal auf deiner GPU oder ueber eine API wie OpenAI/Claude. Lokal zahlst du Strom und Hardware-Abschreibung, bei APIs zahlst du pro Token (Ein-/Ausgabe).