GPU· 2026-04-04

GPU-Workstation für lokale KI: belastbar planen statt Benchmarks raten

Wie du eine GPU-Workstation nach offizieller Speicherkapazität, Leistungsaufnahme, Kühlpfad und Multi-GPU-Bedarf planst, ohne dich auf inoffizielle Preis- oder Benchmarktabellen zu verlassen.

Autor:Kevin Luo

Veröffentlicht:04. April 2026

Quellen:7 verlinkt

Diese Seite macht Rechenannahmen, Quellenlage und Aktualität transparent. Für Methodik, Korrekturen und unseren Umgang mit Automatisierung siehe Redaktionsgrundsätze.

PASSENDE RECHNER

Stromkosten-Rechner

Berechne die jährlichen Stromkosten deiner GPU-Workstation.

Rechner öffnen →

Inferenzkosten-Rechner

Prüfe lokale GPU-Nutzung gegen API-Kosten mit deinem echten Nutzungsprofil.

Rechner öffnen →

Netzteil-Rechner

Plane CPU, GPU und Systemreserve sauber zusammen.

Rechner öffnen →

Eine GPU-Workstation scheitert fast nie an der GPU allein

Die eigentliche Planung beginnt nicht mit einer Grafikkarte, sondern mit vier Randbedingungen: Modellgröße, Nutzungsfrequenz, Geräuschbudget und Ausbaupfad. Wer diese Punkte ignoriert, baut oft eine teure Maschine, die zwar beeindruckend aussieht, aber weder thermisch noch wirtschaftlich sauber zum Einsatzprofil passt.

1Frage zuerstWelche Modellklasse soll lokal wirklich laufen?

4RandbedingungenVRAM, Leistung, Thermik, Ausbaupfad

0Verlässliche BenchmarksOhne identische Runtime und Quantisierung nicht vergleichbar

PraxisregelWenn du Modellklasse, Kontextlänge und Nutzungshäufigkeit noch nicht benennen kannst, ist jede konkrete GPU-Empfehlung zu früh. Erst die Lastannahme macht die Workstation planbar.

Offizielle Hardware-Anker für die Workstation-Planung

Für die Erstplanung reichen offizielle Herstellerdaten vollständig aus. Die entscheidenden Werte sind Speicher, Leistungsaufnahme, Formfaktor und der vorgesehene Einsatzpfad der Karte.

GPU	Offizieller Speicher	Leistungsaufnahme	Formfaktor	Planungsrolle
NVIDIA T4	16 GB GDDR6	70 W	kleiner, passiver PCIe-Formfaktor	effizienter Server-Inferenzknoten mit definiertem Airflow
GeForce RTX 4060 Ti	16 GB GDDR6	165 W TGP	Consumer-Desktop	8B- bis 14B-Klasse mit moderater Leistungsaufnahme
NVIDIA RTX A5000	24 GB GDDR6 ECC	230 W Max Power	Dual-Slot, aktiv	24/7-geeignete 24-GB-Klasse bei begrenztem Platz
GeForce RTX 4090	24 GB GDDR6X	450 W TGP	3-Slot	maximale Einzelkarten-Klasse auf Consumer-Plattform

Nur offizielle Herstellerangaben. Keine Marktpreise, keine Community-Benchmarks, keine Tokens/s-Schätzungen.

GPU-Verbrauch vergleichen

Die Workstation muss erst das Modell tragen, dann die Geschwindigkeit liefern

Für lokale KI ist Speicher zuerst eine Kapazitätsfrage und erst danach eine Performance-Frage. Die Gewichte eines Modells ergeben eine harte Untergrenze, auf die anschließend KV-Cache, Runtime-Overhead und Reserve addiert werden müssen.

Modellklasse	Gewichte in FP16	Gewichte in 4-Bit	Robuste Hardwareplanung
3B	ca. 6 GB	ca. 1,5 GB	kleine GPU oder integrierter Einstiegsknoten
7B bis 9B	ca. 14 bis 18 GB	ca. 3,5 bis 4,5 GB	8 bis 12 GB VRAM als belastbarer Einstieg
12B bis 14B	ca. 24 bis 28 GB	ca. 6 bis 7 GB	12 bis 16 GB VRAM für saubere Reserve
27B bis 32B	ca. 54 bis 64 GB	ca. 13,5 bis 16 GB	24-GB-Klasse oder bewusstes Offloading
70B	ca. 140 GB	ca. 35 GB	Multi-GPU oder anderer Plattformansatz

Die Zahlen zeigen Gewichte als Untergrenze. Reale Laufzeitbedarfe steigen durch Kontextlänge, Cache und Runtime-Reserve.

Formel: Gewichte als UntergrenzeGewichtsspeicher ≈ Parameterzahl × Bitbreite ÷ 8. Für 8B in 4-Bit sind das rund 4 GB nur für die Gewichte. Wer daraus direkt auf eine 4-GB-GPU schließt, plant ohne Laufzeitreserve.

VRAM-Anforderungen prüfen

Netzteil, Slots und Luftführung sind keine Nebensache

Viele Fehlplanungen entstehen, weil nur CPU und GPU addiert werden. In der Praxis müssen auch Mainboard, RAM, SSDs, Lüfter und Lastspitzen berücksichtigt werden. Zusätzlich entscheiden Bauhöhe, Slotbreite und Kühldesign darüber, ob eine Karte im Gehäuse überhaupt sauber betrieben werden kann.

Eine passiv gekühlte T4 braucht gerichteten Server-Airflow und ist kein Selbstläufer im beliebigen Desktop-Gehäuse.
Eine RTX 4090 beansprucht 3 Slots und verlangt laut NVIDIA 850 W Systemleistung als Ausgangspunkt der Planung.
Dual-Slot-Workstation-Karten wie die RTX A5000 sind dort interessant, wo Platz und Abwärme enger budgetiert sind.
Mehrere GPUs sind nicht nur eine Frage der Wattzahl, sondern auch von Slotabstand, Luftpfad, Stromsteckern und Mainboard-Topologie.

Formel: konservative PSU-PlanungNetzteilgröße = GPU-Maximalleistung + CPU-/Host-Budget + 60 bis 100 W Systemreserve; das Ergebnis nicht auf Kante planen, sondern mit zusätzlicher Reserve für Lastspitzen und Alterung des Netzteils auslegen.

Netzteil berechnen

Multi-GPU ist eine Architekturentscheidung, kein Schnäppchentrick

Sobald ein Modell nicht mehr sinnvoll auf eine einzelne Karte passt, wird aus der Einzelkarte ein Architekturthema. vLLM dokumentiert dafür Tensor-Parallelismus auf einem oder mehreren Knoten. Das ändert die Anforderungen an Mainboard, Netzteil, Kühlung und Fehlertoleranz grundlegend.

1Single GPU zuerstWenn das Modell sauber passt, ist das meist die robustere Lösung.

24 GBWichtige SchwelleAb hier werden 27B- und 32B-Klassen praktisch interessanter.

70BKipppunktHier wird Multi-GPU oder eine andere Plattformklasse realistisch.

Situation	Sinnvolle Reaktion	Nicht sinnvoll
Modell passt in eine einzelne GPU	Single-GPU beibehalten	vorschnell Multi-GPU wegen vermeintlicher Zukunftssicherheit
Modell passt mit Reserve nur knapp	größere Einzelkarte oder klar dokumentiertes Offloading	kapazitätskritisches System ohne Reserve
Modell passt nicht in eine einzelne Karte	Tensor-Parallelismus mit klarer Host-Planung	Single-GPU mit unrealistischen Erwartungen
Skalierung über einen Host hinaus	verteilte Inferenz mit dokumentierter Orchestrierung	Ad-hoc-Zusammenstecken ohne Netzwerk- und Runtime-Plan

Multi-GPU lohnt sich erst dann, wenn das Modellziel es wirklich erzwingt.

Die saubere Kaufreihenfolge für 2026

Eine GPU-Workstation sollte immer in derselben Reihenfolge geplant werden: erst Modellziel, dann VRAM-Klasse, danach Strom- und Kühlbudget, zuletzt die konkrete Karte. Diese Reihenfolge verhindert, dass Benchmarks oder Preisgerüchte die Architektur diktieren.

1. Modellklasse und Runtime festlegen
2. Gewichtsuntergrenze plus Reserve rechnen
3. Single-GPU gegen Multi-GPU sauber trennen
4. Formfaktor, Slotbreite und Airflow prüfen
5. Erst danach konkrete GPU auswählen und mit Rechnern gegenprüfen

Inferenzkosten rechnen

Häufig gestellte Fragen

Welche GPU ist die beste für lokale KI?

Es gibt keine seriöse Pauschalantwort. Für lokale KI ist die beste GPU diejenige, deren offizieller Speicher und Leistungsrahmen sauber zu deiner Modellklasse, deinem Gehäuse und deinem Nutzungsprofil passen.

Wann reicht eine einzelne 24-GB-Karte?

Eine einzelne 24-GB-Karte ist für viele 27B- bis 32B-Szenarien die zentrale Schwelle. Für 70B-Klassen reicht sie als Einzelkarte in der Regel nicht aus, wenn das Modell ohne harte Kompromisse lokal laufen soll.

Soll ich mich auf Tokens-pro-Sekunde-Tabellen verlassen?

Nur sehr eingeschränkt. Schon Quantisierung, Kontextlänge, Treiberstand, Runtime und Batch-Größe machen viele öffentliche Vergleichstabellen untereinander unbrauchbar. Für die Erstplanung sind offizielle Speicher- und Leistungsdaten verlässlicher.

Wann ist eine Workstation-Karte sinnvoller als eine Consumer-Karte?

Wenn Dual-Slot-Bauweise, definierter 24/7-Betrieb, enger Airflow, ECC oder professionellere Thermikprofile wichtiger sind als maximale Consumer-Leistung pro Karte.

Weitere Spezial-Themen

Lokale KI betreiben →Self-Hosting-Entscheidung →

Quellen & Primärdaten

NVIDIA GeForce RTX 4060 Family - Verifiziert im Audit: RTX 4060 Ti mit 16 GB GDDR6 und 165 W Total Graphics Power.
NVIDIA GeForce RTX 4090 - Verifiziert im Audit: 24 GB GDDR6X, 450 W TGP und 850-W-Systemempfehlung.
NVIDIA RTX A5000 - Verifiziert im Audit: 24 GB GDDR6 ECC, 230 W Max Power, Dual-Slot.
NVIDIA T4 - Verifiziert im Audit: 16 GB GDDR6, 70 W und passiver Formfaktor.
Ollama Library - Verifiziert im Audit: offizielle Modellgrößen als Anker für die Gewichtsplanung.
AMD ROCm Compatibility Matrix - Verifiziert im Audit: maßgebliche Referenz für unterstützte AMD-Compute-Plattformen.
vLLM Parallelism and Scaling - Verifiziert im Audit: offizielle Multi-GPU- und Tensor-Parallelismus-Dokumentation.

GPU-Workstation für lokale KI: belastbar planen statt Benchmarks raten

PASSENDE RECHNER

Eine GPU-Workstation scheitert fast nie an der GPU allein

Offizielle Hardware-Anker für die Workstation-Planung

Die Workstation muss erst das Modell tragen, dann die Geschwindigkeit liefern

Netzteil, Slots und Luftführung sind keine Nebensache

Multi-GPU ist eine Architekturentscheidung, kein Schnäppchentrick

Die saubere Kaufreihenfolge für 2026

Häufig gestellte Fragen

Welche GPU ist die beste für lokale KI?

Wann reicht eine einzelne 24-GB-Karte?

Soll ich mich auf Tokens-pro-Sekunde-Tabellen verlassen?

Wann ist eine Workstation-Karte sinnvoller als eine Consumer-Karte?

Verwandte Ratgeber

Verwandte Tabellen

Weitere Spezial-Themen

Quellen & Primärdaten