LLM-VRAM-Anforderungen: Gewichte als Untergrenze, Reserve als Pflicht
TABELLE7 Modellklassen· Aktualisiert April 2026

LLM-VRAM-Anforderungen: Gewichte als Untergrenze, Reserve als Pflicht

Ein belastbarer VRAM-Planer für lokale LLMs: Gewichtsbedarf nach Parameterklasse und Präzision, ohne Community-Schätzungen oder frei erfundene Benchmarkwerte.

Autor:Kevin Luo
Aktualisiert:April 2026
Quellen:3 verlinkt

Diese Seite macht Rechenannahmen, Quellenlage und Aktualität transparent. Für Methodik, Korrekturen und unseren Umgang mit Automatisierung siehe Redaktionsgrundsätze.

Für lokale LLMs ist der Speicher zuerst eine Kapazitätsfrage. Die harte Untergrenze ergibt sich aus der Modellgröße und der Präzision der Gewichte. Erst danach kommen KV-Cache, Laufzeit-Overhead, Kontextfenster und Reserve hinzu.

Diese Tabelle zeigt deshalb bewusst keine Community-Benchmarks und keine vermeintlich exakten 'passt auf Karte X'-Versprechen. Sie zeigt die Gewichte als belastbare Untergrenze und eine vorsichtige Praxisplanung darüber hinaus.

3B
Gewichte FP16ca. 6 GB
Gewichte INT8ca. 3 GB
Gewichte 4-Bitca. 1,5 GB
Praxisplanungkleine GPU oder integrierter Einstieg mit Reserve
7B
Gewichte FP16ca. 14 GB
Gewichte INT8ca. 7 GB
Gewichte 4-Bitca. 3,5 GB
Praxisplanung8-GB-Klasse als Einstieg, mehr Reserve ist sinnvoll
8B
Gewichte FP16ca. 16 GB
Gewichte INT8ca. 8 GB
Gewichte 4-Bitca. 4 GB
Praxisplanung8 bis 12 GB VRAM für robuste Alltagsnutzung
14B
Gewichte FP16ca. 28 GB
Gewichte INT8ca. 14 GB
Gewichte 4-Bitca. 7 GB
Praxisplanung12 bis 16 GB VRAM mit Laufzeitreserve sinnvoll
27B
Gewichte FP16ca. 54 GB
Gewichte INT8ca. 27 GB
Gewichte 4-Bitca. 13,5 GB
Praxisplanung24-GB-Klasse oder bewusstes Offloading
32B
Gewichte FP16ca. 64 GB
Gewichte INT8ca. 32 GB
Gewichte 4-Bitca. 16 GB
Praxisplanung24 GB VRAM sind der praktischere Anker als bloße Untergrenze
70B
Gewichte FP16ca. 140 GB
Gewichte INT8ca. 70 GB
Gewichte 4-Bitca. 35 GB
PraxisplanungSingle-GPU-Consumer-Hardware reicht in der Regel nicht aus

Die Tabelle zeigt Gewichte als Untergrenze. Reale Laufzeitbedarfe steigen durch KV-Cache, Kontextlänge, Batch-Größe und Framework-Overhead.

Faustformel: FP16 ≈ 2 Byte pro Parameter, INT8 ≈ 1 Byte, 4-Bit ≈ 0,5 Byte. Die Praxisplanung liegt bewusst über dieser Untergrenze.

Für 70B-Klassen und darüber werden Multi-GPU, Offloading oder andere Plattformklassen schnell realistischer als eine einzelne Consumer-Karte.

Passende Rechner

Verwandte Ratgeber

Häufig gestellte Fragen

Warum sind diese Zahlen nur Untergrenzen?

Weil sie nur die Modellgewichte abbilden. Für reale Inferenz kommen Cache, Kontextfenster, Runtime-Overhead und Reserve hinzu. Genau deshalb ist eine Praxisplanung oberhalb der Gewichte notwendig.

Kann ich ein 70B-Modell auf einer einzelnen 24-GB-Karte betreiben?

Für die Gewichte allein liegt selbst 4-Bit schon oberhalb dessen, was 24 GB komfortabel tragen. Ohne harte Kompromisse oder Offloading ist eine einzelne 24-GB-Consumer-Karte dafür in der Regel nicht die saubere Lösung.

Warum fehlt hier eine Liste 'beste GPU für X'?

Weil diese Seite die Speicherplanung abbildet, nicht die Kaufentscheidung. Eine gute GPU-Auswahl hängt zusätzlich von Leistungsaufnahme, Formfaktor, Treiberpfad und Nutzungsprofil ab.

THEMENHUBS

Themenhubs für den nächsten Schritt

Diese Spezialseiten verbinden Einzelartikel, Tabellen und Rechner zu einer konsistenten Entscheidungslogik. Wenn du vom isolierten Problem zur belastbaren Systementscheidung weitergehen willst, starte hier.

Quellen & Primärdaten

  1. Ollama Library - Verifiziert im Audit: offizielle Modellgrößen als Größenanker für die Parameterklassen.
  2. vLLM Parallelism and Scaling - Verifiziert im Audit: offizielle Referenz für Multi-GPU-Skalierung, sobald Gewichte nicht mehr auf eine Karte passen.
  3. NVIDIA GeForce RTX 4090 - Verifiziert im Audit: offizieller 24-GB-Anker für die Einordnung großer Einzelkarten.