KI-Modell Inferenzkosten-Rechner

Lokale GPU vs. API – was kostet dich eine KI-Anfrage wirklich?

LOKALE GPU

W
tok/s
ct/kWh
Jahre
%

API (CLOUD)

$/1M Tok
$/1M Tok
€/USD

API-Listenpreise sind meist in USD. Der Kurs ist sichtbar und editierbar, damit der Vergleich nicht auf einer versteckten FX-Annahme basiert.

NUTZUNG

Req/Tag
Token
%

LOKAL

3,76 €pro Monat inkl. Strom und optionaler GPU-Amortisation
Pro Anfrage0,00 €
Hardware/Tag0,00 €
Pro Tag0,12 €
Pro Jahr45,17 €

API

17,43 €pro Monat
Pro Anfrage (USD)$0.0132
Pro Anfrage0,01 €
USD zu EUR0,8683
Pro Tag0,57 €
Pro Jahr209,17 €
Break-Evenab erster Anfrage
Methodik & Quellen

Wie dieser Rechner arbeitet

Der Vergleich trennt lokale Strom- und Hardwarekosten von API-Tokenkosten. Wechselkurs und Hardwarebindung bleiben dabei offen sichtbar.

01

Lokale Kosten

GPU-Leistung, gemessener Token-Durchsatz, Auslastung und Strompreis ergeben die reinen Energiekosten pro Anfrage; optional kommt taegliche Hardware-Amortisation hinzu.

02

API-Kosten

Input- und Output-Tokens werden mit den offiziellen Anbieterpreisen pro 1 Million Token bewertet und anschliessend in Euro umgerechnet.

03

Break-Even

Das Tool berechnet, ab wie vielen Requests pro Tag die taeglichen API-Kosten die lokale Seite inklusive Hardwarebindung uebersteigen.

Primärquellen und Referenzseiten

  1. OpenAI API Pricing - Offizielle OpenAI-Preisquelle fuer aktuelle Input- und Output-Tarife im API-Vergleich.
  2. Anthropic Pricing - Offizielle Anthropic-Preisquelle fuer Claude-Tarife im API-Vergleich.
  3. ECB USD Reference Exchange Rate - Der sichtbare Defaultkurs im Tool basiert auf dem ECB-Referenzkurs vom 27. Maerz 2026.
Interne Pfade

Passende Ratgeber und Referenztabellen

Diese Links fuehren bewusst in angrenzende Entscheidungsseiten, damit der Rechner nicht isoliert bleibt: von der nackten Zahl zur Architektur-, Beschaffungs- oder Betriebsfrage.

Tipps zu KI-Inferenzkosten

Mit realem Durchsatz arbeiten

Der wichtigste lokale Eingabewert ist nicht die theoretische GPU-Leistung, sondern dein gemessener Token-Durchsatz mit genau dem Modell, der Quantisierung und dem Kontextfenster, die du spaeter wirklich nutzt.

Hardware und Strom trennen

Der Rechner zeigt lokale Energiekosten pro Anfrage getrennt von der taeglichen GPU-Amortisation. So siehst du sofort, ob der Kostentreiber dein Stromverbrauch oder die gebundene Hardware ist.

Abgerechnete API-Stufe eintragen

Viele Anbieter unterscheiden Standard-, Cached-, Batch- oder Long-Context-Preise. Uebernimm deshalb nicht blind einen Listenwert, sondern genau den Tarif, den dein Anbieter fuer deinen echten Request-Typ abrechnet.

Häufig gestellte Fragen

Inferenzkosten sind die laufenden Kosten pro Modellaufruf. Lokal bestehen sie aus Strom und optionaler Hardware-Amortisation. Bei API-Modellen entstehen sie aus Input- und Output-Tokens nach dem offiziellen Preisblatt des jeweiligen Anbieters.