GPU· 2026-04-04

GPU-Workstation für lokale KI: belastbar planen statt Benchmarks raten

Wie du eine GPU-Workstation nach offizieller Speicherkapazität, Leistungsaufnahme, Kühlpfad und Multi-GPU-Bedarf planst, ohne dich auf inoffizielle Preis- oder Benchmarktabellen zu verlassen.

Autor:Kevin Luo
Veröffentlicht:04. April 2026
Quellen:7 verlinkt

Diese Seite macht Rechenannahmen, Quellenlage und Aktualität transparent. Für Methodik, Korrekturen und unseren Umgang mit Automatisierung siehe Redaktionsgrundsätze.

PASSENDE RECHNER

Eine GPU-Workstation scheitert fast nie an der GPU allein

Die eigentliche Planung beginnt nicht mit einer Grafikkarte, sondern mit vier Randbedingungen: Modellgröße, Nutzungsfrequenz, Geräuschbudget und Ausbaupfad. Wer diese Punkte ignoriert, baut oft eine teure Maschine, die zwar beeindruckend aussieht, aber weder thermisch noch wirtschaftlich sauber zum Einsatzprofil passt.

1Frage zuerstWelche Modellklasse soll lokal wirklich laufen?
4RandbedingungenVRAM, Leistung, Thermik, Ausbaupfad
0Verlässliche BenchmarksOhne identische Runtime und Quantisierung nicht vergleichbar
PraxisregelWenn du Modellklasse, Kontextlänge und Nutzungshäufigkeit noch nicht benennen kannst, ist jede konkrete GPU-Empfehlung zu früh. Erst die Lastannahme macht die Workstation planbar.

Offizielle Hardware-Anker für die Workstation-Planung

Für die Erstplanung reichen offizielle Herstellerdaten vollständig aus. Die entscheidenden Werte sind Speicher, Leistungsaufnahme, Formfaktor und der vorgesehene Einsatzpfad der Karte.

GPUOffizieller SpeicherLeistungsaufnahmeFormfaktorPlanungsrolle
NVIDIA T416 GB GDDR670 Wkleiner, passiver PCIe-Formfaktoreffizienter Server-Inferenzknoten mit definiertem Airflow
GeForce RTX 4060 Ti16 GB GDDR6165 W TGPConsumer-Desktop8B- bis 14B-Klasse mit moderater Leistungsaufnahme
NVIDIA RTX A500024 GB GDDR6 ECC230 W Max PowerDual-Slot, aktiv24/7-geeignete 24-GB-Klasse bei begrenztem Platz
GeForce RTX 409024 GB GDDR6X450 W TGP3-Slotmaximale Einzelkarten-Klasse auf Consumer-Plattform

Nur offizielle Herstellerangaben. Keine Marktpreise, keine Community-Benchmarks, keine Tokens/s-Schätzungen.

GPU-Verbrauch vergleichen

Die Workstation muss erst das Modell tragen, dann die Geschwindigkeit liefern

Für lokale KI ist Speicher zuerst eine Kapazitätsfrage und erst danach eine Performance-Frage. Die Gewichte eines Modells ergeben eine harte Untergrenze, auf die anschließend KV-Cache, Runtime-Overhead und Reserve addiert werden müssen.

ModellklasseGewichte in FP16Gewichte in 4-BitRobuste Hardwareplanung
3Bca. 6 GBca. 1,5 GBkleine GPU oder integrierter Einstiegsknoten
7B bis 9Bca. 14 bis 18 GBca. 3,5 bis 4,5 GB8 bis 12 GB VRAM als belastbarer Einstieg
12B bis 14Bca. 24 bis 28 GBca. 6 bis 7 GB12 bis 16 GB VRAM für saubere Reserve
27B bis 32Bca. 54 bis 64 GBca. 13,5 bis 16 GB24-GB-Klasse oder bewusstes Offloading
70Bca. 140 GBca. 35 GBMulti-GPU oder anderer Plattformansatz

Die Zahlen zeigen Gewichte als Untergrenze. Reale Laufzeitbedarfe steigen durch Kontextlänge, Cache und Runtime-Reserve.

Formel: Gewichte als UntergrenzeGewichtsspeicher ≈ Parameterzahl × Bitbreite ÷ 8. Für 8B in 4-Bit sind das rund 4 GB nur für die Gewichte. Wer daraus direkt auf eine 4-GB-GPU schließt, plant ohne Laufzeitreserve.
VRAM-Anforderungen prüfen

Netzteil, Slots und Luftführung sind keine Nebensache

Viele Fehlplanungen entstehen, weil nur CPU und GPU addiert werden. In der Praxis müssen auch Mainboard, RAM, SSDs, Lüfter und Lastspitzen berücksichtigt werden. Zusätzlich entscheiden Bauhöhe, Slotbreite und Kühldesign darüber, ob eine Karte im Gehäuse überhaupt sauber betrieben werden kann.

  • Eine passiv gekühlte T4 braucht gerichteten Server-Airflow und ist kein Selbstläufer im beliebigen Desktop-Gehäuse.
  • Eine RTX 4090 beansprucht 3 Slots und verlangt laut NVIDIA 850 W Systemleistung als Ausgangspunkt der Planung.
  • Dual-Slot-Workstation-Karten wie die RTX A5000 sind dort interessant, wo Platz und Abwärme enger budgetiert sind.
  • Mehrere GPUs sind nicht nur eine Frage der Wattzahl, sondern auch von Slotabstand, Luftpfad, Stromsteckern und Mainboard-Topologie.
Formel: konservative PSU-PlanungNetzteilgröße = GPU-Maximalleistung + CPU-/Host-Budget + 60 bis 100 W Systemreserve; das Ergebnis nicht auf Kante planen, sondern mit zusätzlicher Reserve für Lastspitzen und Alterung des Netzteils auslegen.
Netzteil berechnen

Multi-GPU ist eine Architekturentscheidung, kein Schnäppchentrick

Sobald ein Modell nicht mehr sinnvoll auf eine einzelne Karte passt, wird aus der Einzelkarte ein Architekturthema. vLLM dokumentiert dafür Tensor-Parallelismus auf einem oder mehreren Knoten. Das ändert die Anforderungen an Mainboard, Netzteil, Kühlung und Fehlertoleranz grundlegend.

1Single GPU zuerstWenn das Modell sauber passt, ist das meist die robustere Lösung.
24 GBWichtige SchwelleAb hier werden 27B- und 32B-Klassen praktisch interessanter.
70BKipppunktHier wird Multi-GPU oder eine andere Plattformklasse realistisch.
SituationSinnvolle ReaktionNicht sinnvoll
Modell passt in eine einzelne GPUSingle-GPU beibehaltenvorschnell Multi-GPU wegen vermeintlicher Zukunftssicherheit
Modell passt mit Reserve nur knappgrößere Einzelkarte oder klar dokumentiertes Offloadingkapazitätskritisches System ohne Reserve
Modell passt nicht in eine einzelne KarteTensor-Parallelismus mit klarer Host-PlanungSingle-GPU mit unrealistischen Erwartungen
Skalierung über einen Host hinausverteilte Inferenz mit dokumentierter OrchestrierungAd-hoc-Zusammenstecken ohne Netzwerk- und Runtime-Plan

Multi-GPU lohnt sich erst dann, wenn das Modellziel es wirklich erzwingt.

Die saubere Kaufreihenfolge für 2026

Eine GPU-Workstation sollte immer in derselben Reihenfolge geplant werden: erst Modellziel, dann VRAM-Klasse, danach Strom- und Kühlbudget, zuletzt die konkrete Karte. Diese Reihenfolge verhindert, dass Benchmarks oder Preisgerüchte die Architektur diktieren.

  • 1. Modellklasse und Runtime festlegen
  • 2. Gewichtsuntergrenze plus Reserve rechnen
  • 3. Single-GPU gegen Multi-GPU sauber trennen
  • 4. Formfaktor, Slotbreite und Airflow prüfen
  • 5. Erst danach konkrete GPU auswählen und mit Rechnern gegenprüfen
Inferenzkosten rechnen

Häufig gestellte Fragen

Welche GPU ist die beste für lokale KI?

Es gibt keine seriöse Pauschalantwort. Für lokale KI ist die beste GPU diejenige, deren offizieller Speicher und Leistungsrahmen sauber zu deiner Modellklasse, deinem Gehäuse und deinem Nutzungsprofil passen.

Wann reicht eine einzelne 24-GB-Karte?

Eine einzelne 24-GB-Karte ist für viele 27B- bis 32B-Szenarien die zentrale Schwelle. Für 70B-Klassen reicht sie als Einzelkarte in der Regel nicht aus, wenn das Modell ohne harte Kompromisse lokal laufen soll.

Soll ich mich auf Tokens-pro-Sekunde-Tabellen verlassen?

Nur sehr eingeschränkt. Schon Quantisierung, Kontextlänge, Treiberstand, Runtime und Batch-Größe machen viele öffentliche Vergleichstabellen untereinander unbrauchbar. Für die Erstplanung sind offizielle Speicher- und Leistungsdaten verlässlicher.

Wann ist eine Workstation-Karte sinnvoller als eine Consumer-Karte?

Wenn Dual-Slot-Bauweise, definierter 24/7-Betrieb, enger Airflow, ECC oder professionellere Thermikprofile wichtiger sind als maximale Consumer-Leistung pro Karte.

Verwandte Ratgeber

Verwandte Tabellen

Weitere Spezial-Themen

Quellen & Primärdaten

  1. NVIDIA GeForce RTX 4060 Family - Verifiziert im Audit: RTX 4060 Ti mit 16 GB GDDR6 und 165 W Total Graphics Power.
  2. NVIDIA GeForce RTX 4090 - Verifiziert im Audit: 24 GB GDDR6X, 450 W TGP und 850-W-Systemempfehlung.
  3. NVIDIA RTX A5000 - Verifiziert im Audit: 24 GB GDDR6 ECC, 230 W Max Power, Dual-Slot.
  4. NVIDIA T4 - Verifiziert im Audit: 16 GB GDDR6, 70 W und passiver Formfaktor.
  5. Ollama Library - Verifiziert im Audit: offizielle Modellgrößen als Anker für die Gewichtsplanung.
  6. AMD ROCm Compatibility Matrix - Verifiziert im Audit: maßgebliche Referenz für unterstützte AMD-Compute-Plattformen.
  7. vLLM Parallelism and Scaling - Verifiziert im Audit: offizielle Multi-GPU- und Tensor-Parallelismus-Dokumentation.