LLM VRAM-Anforderungen: Wie viel GPU-Speicher braucht dein Modell?
TABELLE12 Modelle· Aktualisiert März 2026

LLM VRAM-Anforderungen: Wie viel GPU-Speicher braucht dein Modell?

VRAM-Bedarf populärer LLMs bei verschiedenen Quantisierungen (FP16, Q8, Q4) – von 7B bis 405B Parameter.

Der GPU-Speicher (VRAM) ist der entscheidende Flaschenhals für lokales LLM-Hosting. Ein 70B-Modell in voller Präzision (FP16) benötigt ~140 GB – mehr als jede einzelne Consumer-GPU bieten kann. Quantisierung reduziert den Bedarf erheblich.

Diese Tabelle zeigt den VRAM-Bedarf bei verschiedenen Quantisierungsstufen. Q4_K_M bietet in der Praxis den besten Kompromiss aus Qualität und Speicherbedarf.

Llama 3.2
Parameter3B
FP166 GB
Q8_03,5 GB
Q4_K_M2,2 GB
Min. GPU (Q4)RTX 3060 6GB
Llama 3.1
Parameter8B
FP1616 GB
Q8_08,5 GB
Q4_K_M5,0 GB
Min. GPU (Q4)RTX 3060 8GB
Mistral v0.3
Parameter7B
FP1614 GB
Q8_07,5 GB
Q4_K_M4,5 GB
Min. GPU (Q4)RTX 3060 8GB
Gemma 2
Parameter9B
FP1618 GB
Q8_09,5 GB
Q4_K_M5,5 GB
Min. GPU (Q4)RTX 4060 8GB
Gemma 2
Parameter27B
FP1654 GB
Q8_028 GB
Q4_K_M16 GB
Min. GPU (Q4)RTX 4090 24GB
Qwen 2.5
Parameter14B
FP1628 GB
Q8_015 GB
Q4_K_M9 GB
Min. GPU (Q4)RTX 4070 Ti 12GB
Qwen 2.5
Parameter32B
FP1664 GB
Q8_034 GB
Q4_K_M20 GB
Min. GPU (Q4)2× RTX 4090
Qwen 2.5
Parameter72B
FP16144 GB
Q8_076 GB
Q4_K_M42 GB
Min. GPU (Q4)2× RTX 4090
Llama 3.1
Parameter70B
FP16140 GB
Q8_074 GB
Q4_K_M40 GB
Min. GPU (Q4)2× RTX 4090
DeepSeek V3
Parameter671B MoE
FP16~400 GB*
Q8_0~210 GB*
Q4_K_M~120 GB*
Min. GPU (Q4)8× A100 80GB
Llama 3.1
Parameter405B
FP16810 GB
Q8_0428 GB
Q4_K_M240 GB
Min. GPU (Q4)8× A100 80GB
Mixtral 8×7B
Parameter46.7B MoE
FP1693 GB
Q8_049 GB
Q4_K_M28 GB
Min. GPU (Q4)2× RTX 4090

VRAM-Angaben sind Schätzungen basierend auf: FP16 ≈ 2 Bytes/Parameter, Q8 ≈ 1 Byte, Q4 ≈ 0,56 Bytes + KV-Cache-Overhead.

* DeepSeek V3 ist ein MoE-Modell – nur ~37B Parameter sind gleichzeitig aktiv, aber alle Gewichte müssen im Speicher liegen.

Tatsächlicher Bedarf variiert je nach Kontext-Länge, Batch-Größe und Framework (llama.cpp, vLLM, etc.).

Passende Rechner

Verwandte Ratgeber

Häufig gestellte Fragen

Was ist Quantisierung bei LLMs?

Quantisierung reduziert die Präzision der Modellgewichte (z. B. von 16-Bit auf 4-Bit), um VRAM-Bedarf und Rechenzeit zu senken. Q4_K_M ist ein beliebtes Format, das ~65 % VRAM spart bei nur geringem Qualitätsverlust.

Kann ich ein 70B-Modell auf einer RTX 4090 betreiben?

Nicht allein: Selbst in Q4-Quantisierung benötigt ein 70B-Modell ~40 GB VRAM, die RTX 4090 hat nur 24 GB. Sie brauchen mindestens zwei RTX 4090 oder eine A100 80GB. Alternativ: CPU-Offloading (langsamer) oder ein kleineres Modell wählen.

Welches ist das beste Modell für 24 GB VRAM?

Mit einer RTX 4090 (24 GB) können Sie Modelle bis ~32B Parameter in Q4 komfortabel betreiben. Empfehlungen: Qwen 2.5 14B (Q8) für beste Qualität oder Gemma 2 27B (Q4) für maximale Kapazität.

Quellen

  • [1] Hugging Face – Modellkarten und VRAM-Angaben
  • [2] llama.cpp – Quantisierungsformate und Benchmarks
  • [3] Tom's Hardware – GPU VRAM Spezifikationen
  • [4] Reddit /r/LocalLLaMA – Community-Erfahrungswerte