Die beste GPU für lokale KI: Kaufberatung 2026
KI12 Min.· 2026-03-08

Die beste GPU für lokale KI: Kaufberatung 2026

Welche Grafikkarte eignet sich am besten für lokale KI-Modelle? VRAM, Leistung und Stromkosten im Vergleich – von RTX 4060 bis RTX 5090.

Warum ist die GPU der Schlüssel für lokale KI?

Große Sprachmodelle (LLMs) wie Llama 3.1, Mistral oder Gemma bestehen aus Milliarden von Parametern, die bei der Inferenz (Textgenerierung) parallel verarbeitet werden müssen. GPUs mit ihren tausenden CUDA-Kernen sind dafür 5–10× schneller als CPUs.

Der wichtigste Faktor ist dabei nicht die reine Rechenleistung, sondern der VRAM (Video-RAM): Das gesamte Modell muss in den GPU-Speicher passen, sonst wird auf den langsamen System-RAM ausgewichen (Offloading), was die Geschwindigkeit drastisch reduziert.

VRAM-Anforderungen nach Modellgröße

Die benötigte VRAM-Menge hängt von der Modellgröße und der Quantisierung ab. Bei Q4-Quantisierung (4-Bit, Standard in Ollama):

ModellParameterVRAM (Q4)Mindest-GPU
Llama 3.2, Phi-3 Mini1B–3B2–3 GBab 4 GB GPU
Llama 3.1 8B, Mistral 7B, Gemma 2 9B7B–9B4–6 GBab 8 GB GPU
Llama 2 13B, CodeLlama 13B13B8–9 GBab 12 GB GPU
CodeLlama 34B, Yi-34B34B18–20 GBab 24 GB GPU
Llama 3.1 70B70B35–40 GB2× 24 GB oder 1× 48 GB

Bei FP16 (volle Präzision) verdoppelt sich der Bedarf. Fazit: VRAM ist die härteste Grenze – wer große Modelle nutzen will, braucht viel VRAM.

NVIDIA Consumer-GPUs im Vergleich

GPUVRAMTDPPreis (ca.)Empfehlung
RTX 40608 GB GDDR6115 W300 €Einstieg: 7B–9B Modelle
RTX 4060 Ti 16 GB16 GB GDDR6165 W450 €Sweet Spot: 13B Modelle
RTX 4070 Ti Super16 GB GDDR6X285 W800 €Schneller bei gleichem VRAM
RTX 409024 GB GDDR6X450 W1.800 €Consumer-Maximum: 34B Modelle
RTX 509032 GB GDDR7575 Wab 1.999 $ (MSRP)Blackwell-Architektur, 34B+ Modelle

RTX 4090 – 24 GB VRAM mit extrem schneller Inferenz (80–100 Tokens/s bei 7B-Modellen). Spitzenreiter bei Preis-Leistung für KI-Enthusiasten.

RTX 5090 – 32 GB GDDR7 auf Blackwell-Architektur. MSRP $1.999, aber Marktpreise liegen aufgrund hoher Nachfrage (KI-Boom) aktuell bei $2.900+ für AIB-Modelle. Sinnvoll für 34B+ Modelle, sofern man sie zum Listenpreis bekommt.

Server- und Profi-GPUs

GPUVRAMTDPPreisBesonderheit
Tesla T416 GB GDDR670 Wab 150 € (gebraucht)Passiv gekühlt, ideal für 24/7
RTX A4000/A500016/24 GB GDDR6140–230 Wab 500 € (gebraucht)Workstation, leise Turbinen-Kühler
A100 40 GB40 GB HBM2e400 Wab 3.000 € (gebraucht)Goldstandard für 70B-Modelle

Tesla T4 – passiv gekühlt, nur 70 W TDP, ideal als Homelab-GPU für 13B-Modelle im 24/7-Betrieb. Keine Display-Ausgabe (reiner Compute). Gebrauchtpreise ab 150 € machen sie zum Preis-Leistungs-Geheimtipp.

Alternativen: AMD und Apple Silicon

AMD GPUs (ROCm): Die AMD RX 7900 XTX (24 GB, 355 W, ca. 900 €) bietet viel VRAM zum guten Preis. Die Softwareunterstützung (ROCm) hat sich verbessert, ist aber bei weitem nicht so ausgereift wie CUDA – viele Frameworks haben experimentelle oder eingeschränkte AMD-Unterstützung. Für erfahrene Nutzer eine Option, für Einsteiger nicht empfohlen.

Apple Silicon: M1/M2/M3/M4 Pro/Max/Ultra bieten durch Unified Memory (bis 192 GB beim M4 Ultra) einzigartige Vorteile: Selbst 70B-Modelle laufen auf einem einzigen Gerät. Die Inferenzgeschwindigkeit ist gut (30–50 Tokens/s bei 7B), aber langsamer als eine dedizierte NVIDIA-GPU. Ideal für Nutzer, die bereits ein Mac-Gerät besitzen.

Kaufempfehlung nach Budget

BudgetEmpfehlungVRAMGeeignet für
Unter 200 €Gebrauchte Tesla T416 GB13B-Modelle, 24/7-Betrieb
300–500 €RTX 4060 Ti 16 GB16 GBBester Allrounder am Desktop
800–1.000 €RTX 4070 Ti Super / gebrauchte RTX 309016/24 GBMehr Performance / mehr VRAM
1.500–2.200 €RTX 4090 / RTX 509024/32 GBMaximum Consumer-Hardware

Tipp: Rechne vor dem Kauf die jährlichen Stromkosten mit unserem Inferenzkosten-Rechner durch. Eine RTX 4090 bei 24/7-Betrieb kostet ca. 1.301 €/Jahr an Strom (bei 33 ct/kWh) – bei gelegentlicher Nutzung (2h/Tag) aber nur 108 €/Jahr.

Häufig gestellte Fragen

Reichen 8 GB VRAM für lokale KI?

**Ja, für Modelle bis 9B Parameter wie Llama 3.1 8B oder Mistral 7B.** Für größere Modelle (13B+) brauchst du mindestens 12–16 GB VRAM. 8 GB sind ein guter Einstieg, werden aber schnell zum Engpass.

Lohnt sich eine gebrauchte RTX 3090 für KI?

**Ja, die RTX 3090 mit 24 GB VRAM ist ein exzellenter Gebrauchtkauf für lokale KI.** Sie kostet gebraucht ca. 700–900 € und bietet fast so viel VRAM wie die RTX 4090. Die Inferenz ist ca. 20–30 % langsamer, aber der Preis ist deutlich attraktiver.

Kann ich zwei GPUs für ein Modell nutzen?

**Ja, mit Tensor-Parallelismus können Modelle auf 2+ GPUs aufgeteilt werden.** Tools wie Ollama und vLLM unterstützen Multi-GPU-Setups. Beachte: Die GPUs kommunizieren über PCIe, was langsamer ist als NVLink – der Geschwindigkeitszuwachs ist daher nicht linear.

Verwandte Tabellen

Quellen

  • [1] NVIDIA – GPU-Spezifikationen (nvidia.com)
  • [2] Meta AI – Llama 3.1 / 3.2 Model Cards (llama.meta.com)
  • [3] Tom's Hardware – GPU-Benchmarks für LLM-Inferenz 2025
  • [4] Ollama – Supported Models & Hardware Requirements (ollama.com)
  • [5] TechPowerUp – RTX 5090 Review und Marktpreise 2026