KI-Modell Inferenzkosten-Rechner

Lokale GPU vs. API – was kostet dich eine KI-Anfrage wirklich?

LOKALE GPU

GPU-Leistung

Token/Sekunde

tok/s

Strompreis

ct/kWh

GPU-Kaufpreis

€

Nutzungsdauer

Jahre

GPU-Auslastung

API (CLOUD)

Input-Preis

$/1M Tok

Output-Preis

$/1M Tok

USD zu EUR

€/USD

API-Listenpreise sind meist in USD. Der Kurs ist sichtbar und editierbar, damit der Vergleich nicht auf einer versteckten FX-Annahme basiert.

NUTZUNG

Anfragen/Tag

Req/Tag

Token/Anfrage

Token

Output-Anteil

LOKAL

3,76 €pro Monat inkl. Strom und optionaler GPU-Amortisation

Pro Anfrage0,00 €

Hardware/Tag0,00 €

Pro Tag0,12 €

Pro Jahr45,17 €

API

17,43 €pro Monat

Pro Anfrage (USD)$0.0132

Pro Anfrage0,01 €

USD zu EUR0,8683

Pro Tag0,57 €

Pro Jahr209,17 €

Break-Evenab erster Anfrage

Methodik & Quellen

Wie dieser Rechner arbeitet

Der Vergleich trennt lokale Strom- und Hardwarekosten von API-Tokenkosten. Wechselkurs und Hardwarebindung bleiben dabei offen sichtbar.

Lokale Kosten

GPU-Leistung, gemessener Token-Durchsatz, Auslastung und Strompreis ergeben die reinen Energiekosten pro Anfrage; optional kommt taegliche Hardware-Amortisation hinzu.

API-Kosten

Input- und Output-Tokens werden mit den offiziellen Anbieterpreisen pro 1 Million Token bewertet und anschliessend in Euro umgerechnet.

Break-Even

Das Tool berechnet, ab wie vielen Requests pro Tag die taeglichen API-Kosten die lokale Seite inklusive Hardwarebindung uebersteigen.

Primärquellen und Referenzseiten

OpenAI API Pricing - Offizielle OpenAI-Preisquelle fuer aktuelle Input- und Output-Tarife im API-Vergleich.
Anthropic Pricing - Offizielle Anthropic-Preisquelle fuer Claude-Tarife im API-Vergleich.
ECB USD Reference Exchange Rate - Der sichtbare Defaultkurs im Tool basiert auf dem ECB-Referenzkurs vom 27. Maerz 2026.

Interne Pfade

Passende Ratgeber und Referenztabellen

Diese Links fuehren bewusst in angrenzende Entscheidungsseiten, damit der Rechner nicht isoliert bleibt: von der nackten Zahl zur Architektur-, Beschaffungs- oder Betriebsfrage.

Weiterfuehrende Ratgeber

GPU fuer lokale KIRatgeber

Ordnet VRAM, Hostbudget, Strom und Formfaktor vor dem GPU-Kauf sauber ein.

Lokale KI mit OllamaRatgeber

Verbindet Modellwahl, Laufzeitdaten und API-Vergleich zu einem praktischen Betriebsmodell.

Passende Tabellen

KI-API-Preise VergleichTabelle

Bietet verifizierte Anbieterpreise als kontrollierte Eingabebasis fuer den API-Teil des Rechners.

LLM-VRAM-AnforderungenTabelle

Hilft bei der Einordnung, welche Modellklasse ueberhaupt auf die geplante lokale Hardware passt.

Tipps zu KI-Inferenzkosten

Mit realem Durchsatz arbeiten

Der wichtigste lokale Eingabewert ist nicht die theoretische GPU-Leistung, sondern dein gemessener Token-Durchsatz mit genau dem Modell, der Quantisierung und dem Kontextfenster, die du spaeter wirklich nutzt.

Hardware und Strom trennen

Der Rechner zeigt lokale Energiekosten pro Anfrage getrennt von der taeglichen GPU-Amortisation. So siehst du sofort, ob der Kostentreiber dein Stromverbrauch oder die gebundene Hardware ist.

Abgerechnete API-Stufe eintragen

Viele Anbieter unterscheiden Standard-, Cached-, Batch- oder Long-Context-Preise. Uebernimm deshalb nicht blind einen Listenwert, sondern genau den Tarif, den dein Anbieter fuer deinen echten Request-Typ abrechnet.

Häufig gestellte Fragen

Inferenzkosten sind die laufenden Kosten pro Modellaufruf. Lokal bestehen sie aus Strom und optionaler Hardware-Amortisation. Bei API-Modellen entstehen sie aus Input- und Output-Tokens nach dem offiziellen Preisblatt des jeweiligen Anbieters.