
LLM-VRAM-Anforderungen: Gewichte als Untergrenze, Reserve als Pflicht
Ein belastbarer VRAM-Planer für lokale LLMs: Gewichtsbedarf nach Parameterklasse und Präzision, ohne Community-Schätzungen oder frei erfundene Benchmarkwerte.
Diese Seite macht Rechenannahmen, Quellenlage und Aktualität transparent. Für Methodik, Korrekturen und unseren Umgang mit Automatisierung siehe Redaktionsgrundsätze.
Für lokale LLMs ist der Speicher zuerst eine Kapazitätsfrage. Die harte Untergrenze ergibt sich aus der Modellgröße und der Präzision der Gewichte. Erst danach kommen KV-Cache, Laufzeit-Overhead, Kontextfenster und Reserve hinzu.
Diese Tabelle zeigt deshalb bewusst keine Community-Benchmarks und keine vermeintlich exakten 'passt auf Karte X'-Versprechen. Sie zeigt die Gewichte als belastbare Untergrenze und eine vorsichtige Praxisplanung darüber hinaus.
| Modellklasse | Gewichte FP16 | Gewichte INT8 | Gewichte 4-Bit | Praxisplanung |
|---|---|---|---|---|
| 3B | ca. 6 GB | ca. 3 GB | ca. 1,5 GB | kleine GPU oder integrierter Einstieg mit Reserve |
| 7B | ca. 14 GB | ca. 7 GB | ca. 3,5 GB | 8-GB-Klasse als Einstieg, mehr Reserve ist sinnvoll |
| 8B | ca. 16 GB | ca. 8 GB | ca. 4 GB | 8 bis 12 GB VRAM für robuste Alltagsnutzung |
| 14B | ca. 28 GB | ca. 14 GB | ca. 7 GB | 12 bis 16 GB VRAM mit Laufzeitreserve sinnvoll |
| 27B | ca. 54 GB | ca. 27 GB | ca. 13,5 GB | 24-GB-Klasse oder bewusstes Offloading |
| 32B | ca. 64 GB | ca. 32 GB | ca. 16 GB | 24 GB VRAM sind der praktischere Anker als bloße Untergrenze |
| 70B | ca. 140 GB | ca. 70 GB | ca. 35 GB | Single-GPU-Consumer-Hardware reicht in der Regel nicht aus |
Die Tabelle zeigt Gewichte als Untergrenze. Reale Laufzeitbedarfe steigen durch KV-Cache, Kontextlänge, Batch-Größe und Framework-Overhead.
Faustformel: FP16 ≈ 2 Byte pro Parameter, INT8 ≈ 1 Byte, 4-Bit ≈ 0,5 Byte. Die Praxisplanung liegt bewusst über dieser Untergrenze.
Für 70B-Klassen und darüber werden Multi-GPU, Offloading oder andere Plattformklassen schnell realistischer als eine einzelne Consumer-Karte.
Passende Rechner
Verwandte Ratgeber
Häufig gestellte Fragen
Warum sind diese Zahlen nur Untergrenzen?
Weil sie nur die Modellgewichte abbilden. Für reale Inferenz kommen Cache, Kontextfenster, Runtime-Overhead und Reserve hinzu. Genau deshalb ist eine Praxisplanung oberhalb der Gewichte notwendig.
Kann ich ein 70B-Modell auf einer einzelnen 24-GB-Karte betreiben?
Für die Gewichte allein liegt selbst 4-Bit schon oberhalb dessen, was 24 GB komfortabel tragen. Ohne harte Kompromisse oder Offloading ist eine einzelne 24-GB-Consumer-Karte dafür in der Regel nicht die saubere Lösung.
Warum fehlt hier eine Liste 'beste GPU für X'?
Weil diese Seite die Speicherplanung abbildet, nicht die Kaufentscheidung. Eine gute GPU-Auswahl hängt zusätzlich von Leistungsaufnahme, Formfaktor, Treiberpfad und Nutzungsprofil ab.
Themenhubs für den nächsten Schritt
Diese Spezialseiten verbinden Einzelartikel, Tabellen und Rechner zu einer konsistenten Entscheidungslogik. Wenn du vom isolierten Problem zur belastbaren Systementscheidung weitergehen willst, starte hier.
Quellen & Primärdaten
- Ollama Library - Verifiziert im Audit: offizielle Modellgrößen als Größenanker für die Parameterklassen.
- vLLM Parallelism and Scaling - Verifiziert im Audit: offizielle Referenz für Multi-GPU-Skalierung, sobald Gewichte nicht mehr auf eine Karte passen.
- NVIDIA GeForce RTX 4090 - Verifiziert im Audit: offizieller 24-GB-Anker für die Einordnung großer Einzelkarten.