Lokale KI mit Ollama: Runtime, API-Pfade und Modellwahl professionell testen
KI18 Min.· 2026-04-04

Lokale KI mit Ollama: Runtime, API-Pfade und Modellwahl professionell testen

Ollama ist mehr als ein schneller Desktop-Installer. Dieser Leitfaden trennt Runtime, API, Modellbibliothek, Messwerte und Anpassung per Modelfile sauber anhand offizieller Ollama-Dokumentation.

Autor:Kevin Luo
Veröffentlicht:04. April 2026
Lesezeit:18 Min.
Quellen:11 verlinkt

Diese Seite macht Rechenannahmen, Quellenlage und Aktualität transparent. Für Methodik, Korrekturen und unseren Umgang mit Automatisierung siehe Redaktionsgrundsätze.

Ollama ist nicht nur ein Installer, sondern eine lokale Runtime mit API

Der pragmatische Vorteil von Ollama liegt nicht darin, dass es "KI einfach macht", sondern dass es mehrere Infrastrukturfragen zusammenzieht: Modellverwaltung, lokale Laufzeit und eine direkte API.

Die offizielle API-Dokumentation ist hier eindeutig: Nach der Installation ist Ollamas API standardmäßig unter http://localhost:11434/api verfügbar. Genau deshalb ist Ollama nicht nur eine lokale Chat-Oberfläche, sondern ein lokaler Modelldienst, den andere Tools ansprechen können.

Ebene Was Ollama offiziell bietet Warum das wichtig ist
Runtime lokale Modell-Ausführung auf dem eigenen System du testest lokal, ohne sofort einen separaten Serving-Stack zu bauen
API lokaler HTTP-Endpunkt auf localhost:11434 Workflows lassen sich skripten und in bestehende Tools einhängen
Modellverwaltung offizielle Bibliothek plus Modelfile für Anpassungen du musst nicht mit rohen Gewichten und eigener Prompt-Templating-Logik anfangen

Für viele Einsteiger ist genau das der Unterschied zwischen "mal lokale KI ausprobieren" und einem tatsächlich reproduzierbaren Testsetup.

localhost ist eine Vertrauensgrenze, aber noch keine Zugriffskontrolle

Die offizielle Dokumentation sagt zwei Dinge, die zusammen gelesen werden müssen: Die API liegt standardmäßig auf http://localhost:11434/api, und die Authentifizierungsseite stellt klar, dass für lokale Verbindungen standardmäßig keine Authentifizierung erforderlich ist. Das ist für Einzelplatz- und Testnutzung praktisch, aber es ist keine fertige Sicherheitsarchitektur.

Situation Was die offizielle Doku hergibt Praktische Folge
lokaler Desktop-Test API auf localhost, lokal ohne Auth für Einzelplatznutzung bequem und direkt
interner Dienst im eigenen Netz die API ist nutzbar, aber Auth muss bewusst ergänzt werden Netzsegment, Reverse Proxy oder andere Zugriffskontrolle werden Teil des Designs
öffentliche Freigabe Ollama dokumentiert keine "einfach öffentlich und fertig"-Standardabsicherung rohes Weiterreichen der lokalen API ist kein sauberer Default

Einordnung: Der letzte Punkt ist eine Sicherheitsinferenz aus der lokalen Default-Architektur. Genau deshalb sollte Reverse Proxy oder ein anderer klarer Zugangspfad erst dann dazukommen, wenn überhaupt ein echter Mehrnutzer- oder Netzbedarf existiert.

Plattformgrenzen zuerst prüfen: Ollama läuft nicht überall gleich

Die offiziellen Installationsseiten machen die Plattformgrenzen klarer als viele Tutorials:

Plattform Offiziell belegbare Anker Praktische Folge
macOS macOS Sonoma 14 oder neuer; Apple M mit CPU- und GPU-Support, x86 nur CPU Apple Silicon ist der naheliegendere Mac-Pfad für lokale KI
Windows Windows 10 22H2 oder neuer; NVIDIA- oder AMD-Radeon-Support; API ebenfalls auf localhost:11434 Windows ist offiziell kein Bastelpfad mehr, aber Treiberzustand bleibt Teil der Planung
Linux offizieller Download- und Installationspfad über Ollama-Downloadseite für Self-Hosting-Stacks bleibt Linux oft der naheliegendste Betriebsweg

Zusätzlich nennen die Windows- und macOS-Dokumente einen Punkt, den viele Seiten unterschlagen: Nach der Binärinstallation brauchst du zusätzlichen Speicher für Modelle. Lokale KI scheitert daher oft nicht zuerst an der Installation, sondern an Speicherplanung und Modellpflege.

Die Modellwahl beginnt mit der Bibliothek, nicht mit YouTube-Empfehlungen

Die offizielle Ollama-Bibliothek listet Modellfamilien und verfügbare Größen. Schon das reicht für eine deutlich bessere Startentscheidung als jede Pauschalempfehlung.

Familie Offiziell gelistete Größen Saubere Einordnung
Llama 3.2 1B, 3B kleiner, guter Einstieg für lokale Funktionstests und einfache Automationsideen
Gemma 3 270M, 1B, 4B, 12B, 27B breite Spanne vom Minimalmodell bis zur Einzel-GPU-Klasse
Qwen 2.5 0.5B, 1.5B, 3B, 7B, 14B, 32B, 72B deckt vom kleinen Testmodell bis zu deutlich schwereren lokalen Workloads viel ab
Llama 3.1 8B, 70B, 405B macht sofort sichtbar, wie groß der Abstand zwischen Desktop-Test und großem Modell wirklich ist

Einordnung: Die korrekte Reihenfolge ist fast immer: kleinstes ausreichendes Modell, dann Qualitätsprüfung, dann Laufzeit- und Lastmessung, erst danach ein größerer Schritt. Wer umgekehrt startet, investiert zuerst Speicher, VRAM und Wartezeit, bevor überhaupt klar ist, ob der Use Case funktioniert.

Wenn die Modellgröße zur eigentlichen Hardwarefrage wird, geht es in GPU für lokale KI und LLM-VRAM-Anforderungen tiefer weiter.

Vor dem Modellwechsel steht eine feste Evaluationsmatrix

Das häufigste lokale KI-Problem ist nicht die Installation, sondern das unsaubere Testen. Wer heute ein kleines Modell, morgen ein größeres und übermorgen andere Prompts nutzt, vergleicht am Ende nicht Modelle, sondern Chaos. Der bessere Weg ist eine feste Evaluationsmatrix.

Prüffeld Was du pro Testlauf festhältst Warum es wichtig ist
Use Case z. B. Zusammenfassung, Extraktion, Chat, RAG oder Codehilfe ohne festen Zweck ist "besser" nicht messbar
Antwortformat Freitext, JSON, JSON-Schema oder Chat-Antwort entscheiden über /api/generate, /api/chat und Structured Outputs
Hardwarekontext Gerät, Speicher, GPU/CPU-Pfad, warm oder kalt geladen erst dadurch werden Antwortzeiten vergleichbar
Messfelder load_duration, total_duration, prompt_eval_* und eval_* damit vergleichst du reale Last statt Fremdbenchmarks
Pass/Fail-Kriterium fachliche Mindestqualität und maximal tolerierbare Wartezeit verhindert Modellwechsel ohne echte Entscheidung

Einordnung: Diese Matrix ist kein Ollama-Feature, sondern ein Betriebsprinzip. Sie macht aus lokalem Herumprobieren eine belastbare Auswahlentscheidung.

API-Pfade sauber trennen: Generate, Chat und OpenAI-Kompatibilität sind nicht dasselbe

Ollama dokumentiert mehrere API-Wege, und genau daraus entsteht im Alltag viel Klarheit:

Pfad Offiziell dokumentierter Zweck Wann du ihn sinnvoll nutzt
/api/generate generiert eine Antwort für einen Prompt wenn du einfache Einzelprompts oder Roh-Generierung testen willst
/api/chat erzeugt die nächste Chat-Nachricht in einer Unterhaltung wenn du echte Chat-Historie, Tools oder strukturierte Antworten brauchst
OpenAI-kompatible Endpunkte u. a. /v1/chat/completions, /v1/completions, /v1/models, /v1/embeddings, /v1/responses wenn du bestehende OpenAI-Clients oder Integrationen lokal weiterverwenden willst

Das ist ein wichtiger Architekturpunkt: Ollama ist nicht nur eine App zum "Runterladen und Chatten". Es kann auch als lokaler OpenAI-kompatibler Backend-Dienst in bestehende Workflows eingeschoben werden. Genau dadurch wird es für interne Tools, Automationen oder private Prototypen deutlich wertvoller.

Nicht Benchmarks abschreiben, sondern die Response-Felder des eigenen Systems auswerten

Ollamas API liefert selbst schon die wichtigen Rohdaten für eine saubere Messung. Die dokumentierten Antwortfelder bei /api/generate und /api/chat enthalten unter anderem:

Feld Warum es praktisch relevant ist
load_duration zeigt, wie teuer das Laden des Modells wirklich ist
prompt_eval_count und prompt_eval_duration zeigen, wie schwer dein Eingabekontext ist
eval_count und eval_duration geben dir die eigentliche Generationslast der Antwort
total_duration zeigt die Gesamtkosten eines Requests

Damit kannst du reale Tests fahren: kalter Modellstart gegen warmen Lauf, kurze Prompts gegen lange Kontexte, kleines Modell gegen größeres Modell. Diese Messung ist für lokale KI deutlich wertvoller als jede fremde "Tokens pro Sekunde"-Liste ohne identische Hardware und identische Runtime.

Kalter Start, warmes Modell, bewusstes Entladen: der Modelllebenszyklus gehört zur Laufzeit

Die Ollama-FAQ ist hier sehr konkret: Modelle bleiben standardmäßig 5 Minuten im Speicher, du kannst mit keep_alive aber abweichende Werte setzen, mit 0 sofort entladen oder mit -1 unbegrenzt geladen halten. Zusätzlich zeigt ollama ps nicht nur geladene Modelle, sondern auch den Processor-Pfad, also ob die Last auf GPU, CPU oder gemischt läuft.

Laufzeitzustand Offizieller Anker Warum er für den Betrieb wichtig ist
kalter Start load_duration und FAQ-Hinweise zur Speicherhaltung erst hier siehst du, ob ein Desktop- oder Tool-Workflow auf Wartezeiten sensibel reagiert
warmes Modell keep_alive hält Modelle im Speicher entscheidet über Antwortzeit, RAM/VRAM-Belegung und Mehrfachnutzung
bewusstes Entladen keep_alive: 0 oder ollama stop wichtig für kleine Hosts, Testrotation und saubere Ressourcenhygiene
unbegrenztes Vorhalten keep_alive: -1 nur sinnvoll, wenn das Modell wirklich dauerhaft gebraucht wird und der Speicherpfad das tragen kann

Genau hier wird aus einem Demo-Installer eine Runtime: Du steuerst bewusst, ob Modelle nur ad hoc geladen, für wiederkehrende Anfragen warm gehalten oder nach Tests wieder freigegeben werden. Ohne diese Disziplin ist lokales KI-Testen schnell eher Speicherverwaltung als Produktivarbeit.

Structured Outputs, keep_alive und Modelfile: hier wird aus Testen ein System

Ollama ist inzwischen deutlich mehr als ein simples Prompt-Werkzeug. Drei offizielle Funktionen sind für ernsthafte lokale Nutzung besonders wichtig:

Funktion Offiziell dokumentierter Anker Warum sie wichtig ist
Structured Outputs JSON oder JSON-Schema als Rückgabeformat macht Extraktion, Automatisierung und feste Antwortstrukturen deutlich robuster
keep_alive bestimmt, wie lange ein Modell geladen bleibt, z. B. 5m oder 0 wichtig für kalte Starts, RAM/VRAM-Verhalten und wiederholte lokale Workloads
Modelfile FROM, PARAMETER, TEMPLATE, SYSTEM, ADAPTER, LICENSE, MESSAGE, REQUIRES ermöglicht reproduzierbare Anpassung statt losem Prompt-Handwerk

Genau hier trennt sich Spielerei von Betriebsmodell. Wer mit JSON-Schema, Modelfile und bewusstem Modell-Lebenszyklus arbeitet, baut bereits ein reproduzierbares lokales KI-System und nicht nur eine Testkonsole.

Eine kleine Modellrotation ist belastbarer als eine ungepflegte Sammlung

Die offizielle Bibliothek macht es leicht, immer neue Modelle zu ziehen. Für den Betrieb ist aber meist das Gegenteil sinnvoll: wenige klar benannte Rollen statt einer unübersichtlichen Sammlung.

Rolle Wozu sie dient Typische Regel
Baseline-Modell Referenz für wiederholbare Tests nur selten wechseln, damit Ergebnisse vergleichbar bleiben
Arbeitsmodell dein aktueller produktiver oder täglicher Pfad mit festen Parametern und klarer keep_alive-Strategie betreiben
Stretch-Modell gezielte Gegenprobe gegen ein größeres oder spezialisierteres Modell nur nutzen, wenn es eine konkrete Qualitätsfrage beantwortet

So bleibt lokales Testen beherrschbar: weniger Speicherchaos, klarere Kostenbilder und ein nachvollziehbarer Pfad zwischen Alltag, Vergleich und Ausbau.

Wann Ollama allein reicht und wann du mehr Serving-Disziplin brauchst

Einordnung: Die folgende Trennung ist eine Inferenz aus dem offiziellen Ollama-Betriebsmodell und keine ausdrückliche Produktgrenze aus der Dokumentation.

Szenario Ollama oft ausreichend Woran du merkst, dass mehr nötig wird
lokale Einzelplatz-Evaluierung ja kaum
interne kleine Automationen und private Tools oft ja wenn Auth, zentrales Quota-Management oder komplexe Mehrnutzerlogik wichtig wird
Team- oder Dauerbetrieb nur bedingt wenn Monitoring, Rollout, Rechte, Wartungsfenster und standardisierte Bereitstellung wichtiger werden
große Modelllandschaften und mehrere Nutzer gleichzeitig eher begrenzt wenn Runtime-Management, Queueing oder Infrastrukturgrenzen explizit entworfen werden müssen

Für die meisten Leser ist das aber kein Gegenargument, sondern gerade der Vorteil: Ollama ist stark, weil du klein, lokal und messbar anfangen kannst.

Vom Desktop-Test zum belastbaren Dienst: erst nach einer kleinen Freigabematrix

Viele lokale KI-Setups scheitern nicht an der Installation, sondern am zu frühen Produktivanspruch. Eine minimale Freigabematrix verhindert genau das.

Freigabekriterium Warum es relevant ist
Modell und Tag sind fest gewählt sonst ändert sich die Laufzeitgrundlage unbemerkt mit jedem Modellwechsel
API-Pfad ist bewusst gewählt /api/generate, /api/chat und OpenAI-Kompatibilität bedienen unterschiedliche Integrationspfade
kalte und warme Laufzeiten sind gemessen erst dann weißt du, ob der Workflow unter echter Nutzung tragfähig ist
Speicher- und Prozessorpfad sind sichtbar keep_alive und ollama ps entscheiden mit über Stabilität und Hostdruck
Netz- oder Benutzerzugriff ist bewusst begrenzt die lokale No-Auth-Standardeinstellung ist für Desktopnutzung praktisch, aber kein automatischer Mehrnutzerpfad

Diese Matrix ist keine offizielle Checkliste von Ollama, sondern eine Betriebsinferenz aus API, FAQ und Authentifizierungsdoku. Genau dadurch wird aus "läuft bei mir" ein reproduzierbarer lokaler Dienst.

Lokale KI ist nicht kostenlos, aber sie macht Kosten endlich messbar

Auch ohne Tokenabrechnung bleibt lokale KI ein echter Kostenblock: Modell-Speicher, GPU/CPU-Last, Strom, Kühlung und Betriebszeit. Der Gewinn ist jedoch, dass diese Kosten nicht geschätzt werden müssen.

Wenn du API-Antwortfelder, Stromverbrauch und Modellgröße zusammen dokumentierst, kannst du sauber gegenrechnen: Wann ist ein lokaler Lauf sinnvoll, wann reicht eine API, und wann ist ein Hybridweg klüger? Genau dafür sind Inferenzkosten-Rechner und KI-API-Preise Vergleich die bessere Ergänzung als pauschale "lokal ist immer billiger"-Behauptungen.

Vor dem dauerhaften Einsatz drei Freigaben einholen: Latenzpfad, Hostdruck und API-Alternative

Ollama ist stark, weil du lokal und klein anfangen kannst. Genau deshalb solltest du den Übergang vom Desktop-Test zum dauerhaften Einsatz nicht aus dem Bauch entscheiden, sondern mit drei getrennten Freigaben.

Prüffeld Woran du es prüfst Warum es vor Dauerbetrieb wichtig ist
Latenzpfad load_duration, total_duration sowie kalte versus warme Läufe erst damit wird sichtbar, ob ein lokaler Workflow für deinen echten Use Case schnell genug ist oder nur im Warmstart gut aussieht
Hostdruck und Dauerlast Inferenzkosten-Rechner, ollama ps und bei GPU-Pfaden GPU für lokale KI ein Modell kann fachlich passen und trotzdem CPU, GPU, RAM oder Kühlung des Hosts unangemessen belasten
API-Alternative KI-API-Preise Vergleich plus derselbe Testfall auf dem externen Modellpfad erst der direkte Gegenvergleich zeigt, ob lokaler Betrieb wirklich der richtige Standardpfad ist oder nur eine interessante Zusatzoption

Einordnung: Diese Matrix ist eine Betriebsinferenz aus API-Dokumentation, FAQ und Structured-Output-Pfaden. Sie ist deshalb nützlich, weil sie eine Runtime-Frage von einer Kosten- und einer Qualitätsfrage trennt, statt alles unter "läuft lokal" zusammenzufassen.

Vom lokalen Tool zum internen KI-Dienst fuehrt ein eigener Cutover-Pfad

Die meisten Ollama-Setups kippen nicht am Prompt, sondern beim Rollenwechsel: Aus einem Desktop-Test wird ploetzlich ein intern genutzter Modelldienst. Genau an dieser Stelle brauchst du einen eigenen Cutover-Pfad statt nur mehr Modelle im Speicher.

Stufe Was du freigeben musst Warum der Schritt ueber reines Modelltesten hinausgeht
lokaler Einzelplatz Modelltag, API-Pfad und Warm-/Kaltverhalten sind stabil gemessen hier reicht meist localhost und eine enge Evaluationsmatrix
interne Automatisierung welche Clients die API nutzen, wie Structured Outputs aussehen und wie der Hostdruck beobachtet wird ab hier wird Monitoring Teil derselben Architektur
netzweit genutzter Dienst Zugriffskontrolle, Reverse-Proxy- oder Segmentierungsweg und Rollback fuer den API-Pfad localhost ohne Auth ist dann kein ausreichendes Betriebsmodell mehr
dauerhafter KI-Host GPU-, CPU-, RAM- und Strompfad sind fuer den echten Alltag freigegeben dann wird aus Ollama ein 24/7-Dienst und nicht nur ein bequemer Launcher

Der Wert dieser Tabelle ist direkt: Sie trennt einen Runtime-Test von einem Service-Cutover. Genau dadurch wird lokales KI-Experimentieren nicht mit produktivem KI-Betrieb verwechselt.

Fazit: Ollama ist dann stark, wenn du es wie eine Runtime behandelst

Ollama ist ein sehr guter Einstieg in lokale KI, wenn du vier Dinge sauber trennst: Plattformgrenzen, Modellwahl, API-Pfad und Messung. Dann wird aus einer Testinstallation ein belastbares lokales System.

Wer dagegen nur Modelle sammelt, ohne Antwortfelder, Speicherbedarf und Betriebsgrenzen zu messen, hat zwar lokale KI installiert, aber noch keine brauchbare Entscheidungsgrundlage gebaut.

Häufig gestellte Fragen

Brauche ich für Ollama zwingend eine NVIDIA-GPU?

Nein. Laut offizieller macOS-Dokumentation unterstützt Ollama auf Apple-M-Systemen CPU und GPU, auf macOS x86 aber nur CPU. Die Windows-Dokumentation nennt zusätzlich NVIDIA- und AMD-Radeon-Support. Welche Plattform für dich reicht, hängt von Modellgröße und Antwortzeit ab.

Wie finde ich das richtige Startmodell?

Nimm das kleinste Modell aus der offiziellen Bibliothek, das deinen Zweck grundsätzlich abdeckt, und miss danach Qualität, Ladezeit und Generationsdauer mit eigenen Aufgaben. Größer ist nicht automatisch sinnvoller.

Kann ich bestehende OpenAI-Clients mit Ollama weiterverwenden?

Oft ja. Ollama dokumentiert eine OpenAI-kompatible API mit Endpunkten wie /v1/chat/completions, /v1/completions, /v1/models und /v1/embeddings. Genau das macht es für bestehende lokale Integrationen attraktiv.

Wann nutze ich eher /api/generate und wann /api/chat?

Für einfache Einzelprompts und rohe Generierung ist /api/generate oft der geradlinigere Start. Sobald Gesprächsverlauf, Tools oder strukturierte Antwortlogik wichtiger werden, ist /api/chat meist die passendere Schnittstelle.

Wie verhindere ich, dass das Modell nach jedem Request neu geladen wird?

Dafür ist der keep_alive-Parameter relevant. Die offizielle API nennt ihn ausdrücklich als Steuerung dafür, wie lange ein Modell geladen bleiben soll.

Kann ich die Ollama-API einfach im Netzwerk oder öffentlich freigeben?

Nicht roh als Default. Ollama dokumentiert für lokale Verbindungen standardmäßig keine erforderliche Authentifizierung und legt die API lokal auf localhost aus. Für alles über den reinen Einzelplatz hinaus brauchst du deshalb bewusst entworfene Zugriffskontrolle statt bloßes Weiterreichen des lokalen Dienstes.

Wofür ist ein Modelfile praktisch?

Für reproduzierbare Anpassung. Statt lose Systemprompts und Ad-hoc-Optionen überall zu verstreuen, definierst du Basis, Parameter, Template und weitere Eigenschaften strukturiert an einer Stelle.

Wann sollte ich mit Ollama nicht automatisch im Dauerbetrieb bleiben?

Immer dann, wenn nur Warmstarts gut aussehen, der Host unter echter Last zu stark unter Druck gerät oder derselbe Use Case über eine externe API wirtschaftlich und organisatorisch sauberer läuft. Lokale Verfügbarkeit allein ist noch keine Betriebsfreigabe.

Wann wird Ollama vom lokalen Werkzeug zum echten internen Dienst?

Sobald mehrere Clients darauf bauen oder der API-Pfad nicht mehr nur localhost ist. Dann brauchst du neben Modellwahl und Messwerten auch Zugriffskontrolle, Monitoring, Rollback und einen bewusst freigegebenen Hostpfad.

Verwandte Tabellen

THEMENHUBS

Themenhubs für den nächsten Schritt

Diese Spezialseiten verbinden Einzelartikel, Tabellen und Rechner zu einer konsistenten Entscheidungslogik. Wenn du vom isolierten Problem zur belastbaren Systementscheidung weitergehen willst, starte hier.

Quellen & Primärdaten

  1. Ollama API Introduction - Im Audit am 4. April 2026 erneut verifiziert: lokale API unter http://localhost:11434/api als Standard-Basis-URL.
  2. Ollama API - Generate - Im Audit am 4. April 2026 erneut verifiziert: /api/generate sowie Felder wie total_duration, load_duration, prompt_eval_count und eval_count.
  3. Ollama API - Chat - Im Audit am 4. April 2026 erneut verifiziert: /api/chat, tools, format, think, keep_alive und Chat-spezifische Rückgabestruktur.
  4. Ollama OpenAI Compatibility - Im Audit am 4. April 2026 erneut verifiziert: OpenAI-kompatible Endpunkte wie /v1/chat/completions, /v1/completions, /v1/models, /v1/embeddings und /v1/responses.
  5. Ollama Authentication - Im Audit am 4. April 2026 erneut verifiziert: für lokale Verbindungen ist standardmäßig keine Authentifizierung erforderlich; Netz- oder Mehrnutzerzugriffe brauchen deshalb bewusst ergänzte Zugriffskontrolle.
  6. Ollama Structured Outputs - Im Audit am 4. April 2026 erneut verifiziert: JSON-Mode und JSON-Schema als offizieller Structured-Output-Pfad.
  7. Ollama FAQ - Im Audit am 4. April 2026 erneut verifiziert: Modelle bleiben standardmäßig 5 Minuten geladen; `keep_alive`, `ollama stop` und `ollama ps` sind zentrale Laufzeitanker für warmen und kalten Betrieb.
  8. Ollama Modelfile Reference - Im Audit am 4. April 2026 erneut verifiziert: FROM, PARAMETER, TEMPLATE, SYSTEM, ADAPTER, LICENSE, MESSAGE und REQUIRES als Modelfile-Instruktionen.
  9. Ollama macOS - Im Audit am 4. April 2026 erneut verifiziert: macOS Sonoma 14+, Apple M mit CPU/GPU-Support und x86 nur CPU.
  10. Ollama Windows - Im Audit am 4. April 2026 erneut verifiziert: Windows 10 22H2+, NVIDIA-/AMD-Radeon-Support, localhost:11434 sowie Speicheranforderungen für Installation und Modelle.
  11. Ollama Library - Im Audit am 4. April 2026 erneut verifiziert: offizielle Modellfamilien und gelistete Größen als Startpunkt für die Modellwahl.