KI-Modell Inferenzkosten-Rechner
Lokale GPU vs. API – was kostet dich eine KI-Anfrage wirklich?
LOKALE GPU
API (CLOUD)
API-Listenpreise sind meist in USD. Der Kurs ist sichtbar und editierbar, damit der Vergleich nicht auf einer versteckten FX-Annahme basiert.
NUTZUNG
LOKAL
3,76 €pro Monat inkl. Strom und optionaler GPU-AmortisationAPI
17,43 €pro MonatWie dieser Rechner arbeitet
Der Vergleich trennt lokale Strom- und Hardwarekosten von API-Tokenkosten. Wechselkurs und Hardwarebindung bleiben dabei offen sichtbar.
Lokale Kosten
GPU-Leistung, gemessener Token-Durchsatz, Auslastung und Strompreis ergeben die reinen Energiekosten pro Anfrage; optional kommt taegliche Hardware-Amortisation hinzu.
API-Kosten
Input- und Output-Tokens werden mit den offiziellen Anbieterpreisen pro 1 Million Token bewertet und anschliessend in Euro umgerechnet.
Break-Even
Das Tool berechnet, ab wie vielen Requests pro Tag die taeglichen API-Kosten die lokale Seite inklusive Hardwarebindung uebersteigen.
Primärquellen und Referenzseiten
- OpenAI API Pricing - Offizielle OpenAI-Preisquelle fuer aktuelle Input- und Output-Tarife im API-Vergleich.
- Anthropic Pricing - Offizielle Anthropic-Preisquelle fuer Claude-Tarife im API-Vergleich.
- ECB USD Reference Exchange Rate - Der sichtbare Defaultkurs im Tool basiert auf dem ECB-Referenzkurs vom 27. Maerz 2026.
Passende Ratgeber und Referenztabellen
Diese Links fuehren bewusst in angrenzende Entscheidungsseiten, damit der Rechner nicht isoliert bleibt: von der nackten Zahl zur Architektur-, Beschaffungs- oder Betriebsfrage.
Weiterfuehrende Ratgeber
Tipps zu KI-Inferenzkosten
Mit realem Durchsatz arbeiten
Der wichtigste lokale Eingabewert ist nicht die theoretische GPU-Leistung, sondern dein gemessener Token-Durchsatz mit genau dem Modell, der Quantisierung und dem Kontextfenster, die du spaeter wirklich nutzt.
Hardware und Strom trennen
Der Rechner zeigt lokale Energiekosten pro Anfrage getrennt von der taeglichen GPU-Amortisation. So siehst du sofort, ob der Kostentreiber dein Stromverbrauch oder die gebundene Hardware ist.
Abgerechnete API-Stufe eintragen
Viele Anbieter unterscheiden Standard-, Cached-, Batch- oder Long-Context-Preise. Uebernimm deshalb nicht blind einen Listenwert, sondern genau den Tarif, den dein Anbieter fuer deinen echten Request-Typ abrechnet.
Häufig gestellte Fragen
Inferenzkosten sind die laufenden Kosten pro Modellaufruf. Lokal bestehen sie aus Strom und optionaler Hardware-Amortisation. Bei API-Modellen entstehen sie aus Input- und Output-Tokens nach dem offiziellen Preisblatt des jeweiligen Anbieters.