
LLM VRAM-Anforderungen: Wie viel GPU-Speicher braucht dein Modell?
VRAM-Bedarf populärer LLMs bei verschiedenen Quantisierungen (FP16, Q8, Q4) – von 7B bis 405B Parameter.
Der GPU-Speicher (VRAM) ist der entscheidende Flaschenhals für lokales LLM-Hosting. Ein 70B-Modell in voller Präzision (FP16) benötigt ~140 GB – mehr als jede einzelne Consumer-GPU bieten kann. Quantisierung reduziert den Bedarf erheblich.
Diese Tabelle zeigt den VRAM-Bedarf bei verschiedenen Quantisierungsstufen. Q4_K_M bietet in der Praxis den besten Kompromiss aus Qualität und Speicherbedarf.
| Modell | Parameter | FP16 | Q8_0 | Q4_K_M | Min. GPU (Q4) |
|---|---|---|---|---|---|
| Llama 3.2 | 3B | 6 GB | 3,5 GB | 2,2 GB | RTX 3060 6GB |
| Llama 3.1 | 8B | 16 GB | 8,5 GB | 5,0 GB | RTX 3060 8GB |
| Mistral v0.3 | 7B | 14 GB | 7,5 GB | 4,5 GB | RTX 3060 8GB |
| Gemma 2 | 9B | 18 GB | 9,5 GB | 5,5 GB | RTX 4060 8GB |
| Gemma 2 | 27B | 54 GB | 28 GB | 16 GB | RTX 4090 24GB |
| Qwen 2.5 | 14B | 28 GB | 15 GB | 9 GB | RTX 4070 Ti 12GB |
| Qwen 2.5 | 32B | 64 GB | 34 GB | 20 GB | 2× RTX 4090 |
| Qwen 2.5 | 72B | 144 GB | 76 GB | 42 GB | 2× RTX 4090 |
| Llama 3.1 | 70B | 140 GB | 74 GB | 40 GB | 2× RTX 4090 |
| DeepSeek V3 | 671B MoE | ~400 GB* | ~210 GB* | ~120 GB* | 8× A100 80GB |
| Llama 3.1 | 405B | 810 GB | 428 GB | 240 GB | 8× A100 80GB |
| Mixtral 8×7B | 46.7B MoE | 93 GB | 49 GB | 28 GB | 2× RTX 4090 |
VRAM-Angaben sind Schätzungen basierend auf: FP16 ≈ 2 Bytes/Parameter, Q8 ≈ 1 Byte, Q4 ≈ 0,56 Bytes + KV-Cache-Overhead.
* DeepSeek V3 ist ein MoE-Modell – nur ~37B Parameter sind gleichzeitig aktiv, aber alle Gewichte müssen im Speicher liegen.
Tatsächlicher Bedarf variiert je nach Kontext-Länge, Batch-Größe und Framework (llama.cpp, vLLM, etc.).
Passende Rechner
Verwandte Ratgeber
Häufig gestellte Fragen
Was ist Quantisierung bei LLMs?
Quantisierung reduziert die Präzision der Modellgewichte (z. B. von 16-Bit auf 4-Bit), um VRAM-Bedarf und Rechenzeit zu senken. Q4_K_M ist ein beliebtes Format, das ~65 % VRAM spart bei nur geringem Qualitätsverlust.
Kann ich ein 70B-Modell auf einer RTX 4090 betreiben?
Nicht allein: Selbst in Q4-Quantisierung benötigt ein 70B-Modell ~40 GB VRAM, die RTX 4090 hat nur 24 GB. Sie brauchen mindestens zwei RTX 4090 oder eine A100 80GB. Alternativ: CPU-Offloading (langsamer) oder ein kleineres Modell wählen.
Welches ist das beste Modell für 24 GB VRAM?
Mit einer RTX 4090 (24 GB) können Sie Modelle bis ~32B Parameter in Q4 komfortabel betreiben. Empfehlungen: Qwen 2.5 14B (Q8) für beste Qualität oder Gemma 2 27B (Q4) für maximale Kapazität.
Quellen
- [1] Hugging Face – Modellkarten und VRAM-Angaben
- [2] llama.cpp – Quantisierungsformate und Benchmarks
- [3] Tom's Hardware – GPU VRAM Spezifikationen
- [4] Reddit /r/LocalLLaMA – Community-Erfahrungswerte