GPU-Workstation für lokale KI: belastbar planen statt Benchmarks raten
Wie du eine GPU-Workstation nach offizieller Speicherkapazität, Leistungsaufnahme, Kühlpfad und Multi-GPU-Bedarf planst, ohne dich auf inoffizielle Preis- oder Benchmarktabellen zu verlassen.
Diese Seite macht Rechenannahmen, Quellenlage und Aktualität transparent. Für Methodik, Korrekturen und unseren Umgang mit Automatisierung siehe Redaktionsgrundsätze.
PASSENDE RECHNER
Eine GPU-Workstation scheitert fast nie an der GPU allein
Die eigentliche Planung beginnt nicht mit einer Grafikkarte, sondern mit vier Randbedingungen: Modellgröße, Nutzungsfrequenz, Geräuschbudget und Ausbaupfad. Wer diese Punkte ignoriert, baut oft eine teure Maschine, die zwar beeindruckend aussieht, aber weder thermisch noch wirtschaftlich sauber zum Einsatzprofil passt.
Offizielle Hardware-Anker für die Workstation-Planung
Für die Erstplanung reichen offizielle Herstellerdaten vollständig aus. Die entscheidenden Werte sind Speicher, Leistungsaufnahme, Formfaktor und der vorgesehene Einsatzpfad der Karte.
| GPU | Offizieller Speicher | Leistungsaufnahme | Formfaktor | Planungsrolle |
|---|---|---|---|---|
| NVIDIA T4 | 16 GB GDDR6 | 70 W | kleiner, passiver PCIe-Formfaktor | effizienter Server-Inferenzknoten mit definiertem Airflow |
| GeForce RTX 4060 Ti | 16 GB GDDR6 | 165 W TGP | Consumer-Desktop | 8B- bis 14B-Klasse mit moderater Leistungsaufnahme |
| NVIDIA RTX A5000 | 24 GB GDDR6 ECC | 230 W Max Power | Dual-Slot, aktiv | 24/7-geeignete 24-GB-Klasse bei begrenztem Platz |
| GeForce RTX 4090 | 24 GB GDDR6X | 450 W TGP | 3-Slot | maximale Einzelkarten-Klasse auf Consumer-Plattform |
Nur offizielle Herstellerangaben. Keine Marktpreise, keine Community-Benchmarks, keine Tokens/s-Schätzungen.
Die Workstation muss erst das Modell tragen, dann die Geschwindigkeit liefern
Für lokale KI ist Speicher zuerst eine Kapazitätsfrage und erst danach eine Performance-Frage. Die Gewichte eines Modells ergeben eine harte Untergrenze, auf die anschließend KV-Cache, Runtime-Overhead und Reserve addiert werden müssen.
| Modellklasse | Gewichte in FP16 | Gewichte in 4-Bit | Robuste Hardwareplanung |
|---|---|---|---|
| 3B | ca. 6 GB | ca. 1,5 GB | kleine GPU oder integrierter Einstiegsknoten |
| 7B bis 9B | ca. 14 bis 18 GB | ca. 3,5 bis 4,5 GB | 8 bis 12 GB VRAM als belastbarer Einstieg |
| 12B bis 14B | ca. 24 bis 28 GB | ca. 6 bis 7 GB | 12 bis 16 GB VRAM für saubere Reserve |
| 27B bis 32B | ca. 54 bis 64 GB | ca. 13,5 bis 16 GB | 24-GB-Klasse oder bewusstes Offloading |
| 70B | ca. 140 GB | ca. 35 GB | Multi-GPU oder anderer Plattformansatz |
Die Zahlen zeigen Gewichte als Untergrenze. Reale Laufzeitbedarfe steigen durch Kontextlänge, Cache und Runtime-Reserve.
Netzteil, Slots und Luftführung sind keine Nebensache
Viele Fehlplanungen entstehen, weil nur CPU und GPU addiert werden. In der Praxis müssen auch Mainboard, RAM, SSDs, Lüfter und Lastspitzen berücksichtigt werden. Zusätzlich entscheiden Bauhöhe, Slotbreite und Kühldesign darüber, ob eine Karte im Gehäuse überhaupt sauber betrieben werden kann.
- Eine passiv gekühlte T4 braucht gerichteten Server-Airflow und ist kein Selbstläufer im beliebigen Desktop-Gehäuse.
- Eine RTX 4090 beansprucht 3 Slots und verlangt laut NVIDIA 850 W Systemleistung als Ausgangspunkt der Planung.
- Dual-Slot-Workstation-Karten wie die RTX A5000 sind dort interessant, wo Platz und Abwärme enger budgetiert sind.
- Mehrere GPUs sind nicht nur eine Frage der Wattzahl, sondern auch von Slotabstand, Luftpfad, Stromsteckern und Mainboard-Topologie.
Multi-GPU ist eine Architekturentscheidung, kein Schnäppchentrick
Sobald ein Modell nicht mehr sinnvoll auf eine einzelne Karte passt, wird aus der Einzelkarte ein Architekturthema. vLLM dokumentiert dafür Tensor-Parallelismus auf einem oder mehreren Knoten. Das ändert die Anforderungen an Mainboard, Netzteil, Kühlung und Fehlertoleranz grundlegend.
| Situation | Sinnvolle Reaktion | Nicht sinnvoll |
|---|---|---|
| Modell passt in eine einzelne GPU | Single-GPU beibehalten | vorschnell Multi-GPU wegen vermeintlicher Zukunftssicherheit |
| Modell passt mit Reserve nur knapp | größere Einzelkarte oder klar dokumentiertes Offloading | kapazitätskritisches System ohne Reserve |
| Modell passt nicht in eine einzelne Karte | Tensor-Parallelismus mit klarer Host-Planung | Single-GPU mit unrealistischen Erwartungen |
| Skalierung über einen Host hinaus | verteilte Inferenz mit dokumentierter Orchestrierung | Ad-hoc-Zusammenstecken ohne Netzwerk- und Runtime-Plan |
Multi-GPU lohnt sich erst dann, wenn das Modellziel es wirklich erzwingt.
Die saubere Kaufreihenfolge für 2026
Eine GPU-Workstation sollte immer in derselben Reihenfolge geplant werden: erst Modellziel, dann VRAM-Klasse, danach Strom- und Kühlbudget, zuletzt die konkrete Karte. Diese Reihenfolge verhindert, dass Benchmarks oder Preisgerüchte die Architektur diktieren.
- 1. Modellklasse und Runtime festlegen
- 2. Gewichtsuntergrenze plus Reserve rechnen
- 3. Single-GPU gegen Multi-GPU sauber trennen
- 4. Formfaktor, Slotbreite und Airflow prüfen
- 5. Erst danach konkrete GPU auswählen und mit Rechnern gegenprüfen
Häufig gestellte Fragen
Welche GPU ist die beste für lokale KI?
Es gibt keine seriöse Pauschalantwort. Für lokale KI ist die beste GPU diejenige, deren offizieller Speicher und Leistungsrahmen sauber zu deiner Modellklasse, deinem Gehäuse und deinem Nutzungsprofil passen.
Wann reicht eine einzelne 24-GB-Karte?
Eine einzelne 24-GB-Karte ist für viele 27B- bis 32B-Szenarien die zentrale Schwelle. Für 70B-Klassen reicht sie als Einzelkarte in der Regel nicht aus, wenn das Modell ohne harte Kompromisse lokal laufen soll.
Soll ich mich auf Tokens-pro-Sekunde-Tabellen verlassen?
Nur sehr eingeschränkt. Schon Quantisierung, Kontextlänge, Treiberstand, Runtime und Batch-Größe machen viele öffentliche Vergleichstabellen untereinander unbrauchbar. Für die Erstplanung sind offizielle Speicher- und Leistungsdaten verlässlicher.
Wann ist eine Workstation-Karte sinnvoller als eine Consumer-Karte?
Wenn Dual-Slot-Bauweise, definierter 24/7-Betrieb, enger Airflow, ECC oder professionellere Thermikprofile wichtiger sind als maximale Consumer-Leistung pro Karte.
Verwandte Ratgeber
Verwandte Tabellen
Weitere Spezial-Themen
Quellen & Primärdaten
- NVIDIA GeForce RTX 4060 Family - Verifiziert im Audit: RTX 4060 Ti mit 16 GB GDDR6 und 165 W Total Graphics Power.
- NVIDIA GeForce RTX 4090 - Verifiziert im Audit: 24 GB GDDR6X, 450 W TGP und 850-W-Systemempfehlung.
- NVIDIA RTX A5000 - Verifiziert im Audit: 24 GB GDDR6 ECC, 230 W Max Power, Dual-Slot.
- NVIDIA T4 - Verifiziert im Audit: 16 GB GDDR6, 70 W und passiver Formfaktor.
- Ollama Library - Verifiziert im Audit: offizielle Modellgrößen als Anker für die Gewichtsplanung.
- AMD ROCm Compatibility Matrix - Verifiziert im Audit: maßgebliche Referenz für unterstützte AMD-Compute-Plattformen.
- vLLM Parallelism and Scaling - Verifiziert im Audit: offizielle Multi-GPU- und Tensor-Parallelismus-Dokumentation.