KI18 Min.· 2026-04-04

Lokale KI mit Ollama: Runtime, API-Pfade und Modellwahl professionell testen

Ollama ist mehr als ein schneller Desktop-Installer. Dieser Leitfaden trennt Runtime, API, Modellbibliothek, Messwerte und Anpassung per Modelfile sauber anhand offizieller Ollama-Dokumentation.

Autor:Kevin Luo

Veröffentlicht:04. April 2026

Lesezeit:18 Min.

Quellen:11 verlinkt

Diese Seite macht Rechenannahmen, Quellenlage und Aktualität transparent. Für Methodik, Korrekturen und unseren Umgang mit Automatisierung siehe Redaktionsgrundsätze.

Ollama ist nicht nur ein Installer, sondern eine lokale Runtime mit API

Der pragmatische Vorteil von Ollama liegt nicht darin, dass es "KI einfach macht", sondern dass es mehrere Infrastrukturfragen zusammenzieht: Modellverwaltung, lokale Laufzeit und eine direkte API.

Die offizielle API-Dokumentation ist hier eindeutig: Nach der Installation ist Ollamas API standardmäßig unter http://localhost:11434/api verfügbar. Genau deshalb ist Ollama nicht nur eine lokale Chat-Oberfläche, sondern ein lokaler Modelldienst, den andere Tools ansprechen können.

Ebene	Was Ollama offiziell bietet	Warum das wichtig ist
Runtime	lokale Modell-Ausführung auf dem eigenen System	du testest lokal, ohne sofort einen separaten Serving-Stack zu bauen
API	lokaler HTTP-Endpunkt auf `localhost:11434`	Workflows lassen sich skripten und in bestehende Tools einhängen
Modellverwaltung	offizielle Bibliothek plus Modelfile für Anpassungen	du musst nicht mit rohen Gewichten und eigener Prompt-Templating-Logik anfangen

Für viele Einsteiger ist genau das der Unterschied zwischen "mal lokale KI ausprobieren" und einem tatsächlich reproduzierbaren Testsetup.

localhost ist eine Vertrauensgrenze, aber noch keine Zugriffskontrolle

Die offizielle Dokumentation sagt zwei Dinge, die zusammen gelesen werden müssen: Die API liegt standardmäßig auf http://localhost:11434/api, und die Authentifizierungsseite stellt klar, dass für lokale Verbindungen standardmäßig keine Authentifizierung erforderlich ist. Das ist für Einzelplatz- und Testnutzung praktisch, aber es ist keine fertige Sicherheitsarchitektur.

Situation	Was die offizielle Doku hergibt	Praktische Folge
lokaler Desktop-Test	API auf localhost, lokal ohne Auth	für Einzelplatznutzung bequem und direkt
interner Dienst im eigenen Netz	die API ist nutzbar, aber Auth muss bewusst ergänzt werden	Netzsegment, Reverse Proxy oder andere Zugriffskontrolle werden Teil des Designs
öffentliche Freigabe	Ollama dokumentiert keine "einfach öffentlich und fertig"-Standardabsicherung	rohes Weiterreichen der lokalen API ist kein sauberer Default

Einordnung: Der letzte Punkt ist eine Sicherheitsinferenz aus der lokalen Default-Architektur. Genau deshalb sollte Reverse Proxy oder ein anderer klarer Zugangspfad erst dann dazukommen, wenn überhaupt ein echter Mehrnutzer- oder Netzbedarf existiert.

Plattformgrenzen zuerst prüfen: Ollama läuft nicht überall gleich

Die offiziellen Installationsseiten machen die Plattformgrenzen klarer als viele Tutorials:

Plattform	Offiziell belegbare Anker	Praktische Folge
macOS	macOS Sonoma 14 oder neuer; Apple M mit CPU- und GPU-Support, x86 nur CPU	Apple Silicon ist der naheliegendere Mac-Pfad für lokale KI
Windows	Windows 10 22H2 oder neuer; NVIDIA- oder AMD-Radeon-Support; API ebenfalls auf `localhost:11434`	Windows ist offiziell kein Bastelpfad mehr, aber Treiberzustand bleibt Teil der Planung
Linux	offizieller Download- und Installationspfad über Ollama-Downloadseite	für Self-Hosting-Stacks bleibt Linux oft der naheliegendste Betriebsweg

Zusätzlich nennen die Windows- und macOS-Dokumente einen Punkt, den viele Seiten unterschlagen: Nach der Binärinstallation brauchst du zusätzlichen Speicher für Modelle. Lokale KI scheitert daher oft nicht zuerst an der Installation, sondern an Speicherplanung und Modellpflege.

Die Modellwahl beginnt mit der Bibliothek, nicht mit YouTube-Empfehlungen

Die offizielle Ollama-Bibliothek listet Modellfamilien und verfügbare Größen. Schon das reicht für eine deutlich bessere Startentscheidung als jede Pauschalempfehlung.

Familie	Offiziell gelistete Größen	Saubere Einordnung
Llama 3.2	1B, 3B	kleiner, guter Einstieg für lokale Funktionstests und einfache Automationsideen
Gemma 3	270M, 1B, 4B, 12B, 27B	breite Spanne vom Minimalmodell bis zur Einzel-GPU-Klasse
Qwen 2.5	0.5B, 1.5B, 3B, 7B, 14B, 32B, 72B	deckt vom kleinen Testmodell bis zu deutlich schwereren lokalen Workloads viel ab
Llama 3.1	8B, 70B, 405B	macht sofort sichtbar, wie groß der Abstand zwischen Desktop-Test und großem Modell wirklich ist

Einordnung: Die korrekte Reihenfolge ist fast immer: kleinstes ausreichendes Modell, dann Qualitätsprüfung, dann Laufzeit- und Lastmessung, erst danach ein größerer Schritt. Wer umgekehrt startet, investiert zuerst Speicher, VRAM und Wartezeit, bevor überhaupt klar ist, ob der Use Case funktioniert.

Wenn die Modellgröße zur eigentlichen Hardwarefrage wird, geht es in GPU für lokale KI und LLM-VRAM-Anforderungen tiefer weiter.

Vor dem Modellwechsel steht eine feste Evaluationsmatrix

Das häufigste lokale KI-Problem ist nicht die Installation, sondern das unsaubere Testen. Wer heute ein kleines Modell, morgen ein größeres und übermorgen andere Prompts nutzt, vergleicht am Ende nicht Modelle, sondern Chaos. Der bessere Weg ist eine feste Evaluationsmatrix.

Prüffeld	Was du pro Testlauf festhältst	Warum es wichtig ist
Use Case	z. B. Zusammenfassung, Extraktion, Chat, RAG oder Codehilfe	ohne festen Zweck ist "besser" nicht messbar
Antwortformat	Freitext, JSON, JSON-Schema oder Chat-Antwort	entscheiden über /api/generate, /api/chat und Structured Outputs
Hardwarekontext	Gerät, Speicher, GPU/CPU-Pfad, warm oder kalt geladen	erst dadurch werden Antwortzeiten vergleichbar
Messfelder	load_duration, total_duration, prompt_eval_* und eval_*	damit vergleichst du reale Last statt Fremdbenchmarks
Pass/Fail-Kriterium	fachliche Mindestqualität und maximal tolerierbare Wartezeit	verhindert Modellwechsel ohne echte Entscheidung

Einordnung: Diese Matrix ist kein Ollama-Feature, sondern ein Betriebsprinzip. Sie macht aus lokalem Herumprobieren eine belastbare Auswahlentscheidung.

API-Pfade sauber trennen: Generate, Chat und OpenAI-Kompatibilität sind nicht dasselbe

Ollama dokumentiert mehrere API-Wege, und genau daraus entsteht im Alltag viel Klarheit:

Pfad	Offiziell dokumentierter Zweck	Wann du ihn sinnvoll nutzt
`/api/generate`	generiert eine Antwort für einen Prompt	wenn du einfache Einzelprompts oder Roh-Generierung testen willst
`/api/chat`	erzeugt die nächste Chat-Nachricht in einer Unterhaltung	wenn du echte Chat-Historie, Tools oder strukturierte Antworten brauchst
OpenAI-kompatible Endpunkte	u. a. `/v1/chat/completions`, `/v1/completions`, `/v1/models`, `/v1/embeddings`, `/v1/responses`	wenn du bestehende OpenAI-Clients oder Integrationen lokal weiterverwenden willst

Das ist ein wichtiger Architekturpunkt: Ollama ist nicht nur eine App zum "Runterladen und Chatten". Es kann auch als lokaler OpenAI-kompatibler Backend-Dienst in bestehende Workflows eingeschoben werden. Genau dadurch wird es für interne Tools, Automationen oder private Prototypen deutlich wertvoller.

Nicht Benchmarks abschreiben, sondern die Response-Felder des eigenen Systems auswerten

Ollamas API liefert selbst schon die wichtigen Rohdaten für eine saubere Messung. Die dokumentierten Antwortfelder bei /api/generate und /api/chat enthalten unter anderem:

Feld	Warum es praktisch relevant ist
`load_duration`	zeigt, wie teuer das Laden des Modells wirklich ist
`prompt_eval_count` und `prompt_eval_duration`	zeigen, wie schwer dein Eingabekontext ist
`eval_count` und `eval_duration`	geben dir die eigentliche Generationslast der Antwort
`total_duration`	zeigt die Gesamtkosten eines Requests

Damit kannst du reale Tests fahren: kalter Modellstart gegen warmen Lauf, kurze Prompts gegen lange Kontexte, kleines Modell gegen größeres Modell. Diese Messung ist für lokale KI deutlich wertvoller als jede fremde "Tokens pro Sekunde"-Liste ohne identische Hardware und identische Runtime.

Kalter Start, warmes Modell, bewusstes Entladen: der Modelllebenszyklus gehört zur Laufzeit

Die Ollama-FAQ ist hier sehr konkret: Modelle bleiben standardmäßig 5 Minuten im Speicher, du kannst mit keep_alive aber abweichende Werte setzen, mit 0 sofort entladen oder mit -1 unbegrenzt geladen halten. Zusätzlich zeigt ollama ps nicht nur geladene Modelle, sondern auch den Processor-Pfad, also ob die Last auf GPU, CPU oder gemischt läuft.

Laufzeitzustand	Offizieller Anker	Warum er für den Betrieb wichtig ist
kalter Start	`load_duration` und FAQ-Hinweise zur Speicherhaltung	erst hier siehst du, ob ein Desktop- oder Tool-Workflow auf Wartezeiten sensibel reagiert
warmes Modell	`keep_alive` hält Modelle im Speicher	entscheidet über Antwortzeit, RAM/VRAM-Belegung und Mehrfachnutzung
bewusstes Entladen	`keep_alive: 0` oder `ollama stop`	wichtig für kleine Hosts, Testrotation und saubere Ressourcenhygiene
unbegrenztes Vorhalten	`keep_alive: -1`	nur sinnvoll, wenn das Modell wirklich dauerhaft gebraucht wird und der Speicherpfad das tragen kann

Genau hier wird aus einem Demo-Installer eine Runtime: Du steuerst bewusst, ob Modelle nur ad hoc geladen, für wiederkehrende Anfragen warm gehalten oder nach Tests wieder freigegeben werden. Ohne diese Disziplin ist lokales KI-Testen schnell eher Speicherverwaltung als Produktivarbeit.

Structured Outputs, keep_alive und Modelfile: hier wird aus Testen ein System

Ollama ist inzwischen deutlich mehr als ein simples Prompt-Werkzeug. Drei offizielle Funktionen sind für ernsthafte lokale Nutzung besonders wichtig:

Funktion	Offiziell dokumentierter Anker	Warum sie wichtig ist
Structured Outputs	JSON oder JSON-Schema als Rückgabeformat	macht Extraktion, Automatisierung und feste Antwortstrukturen deutlich robuster
`keep_alive`	bestimmt, wie lange ein Modell geladen bleibt, z. B. `5m` oder `0`	wichtig für kalte Starts, RAM/VRAM-Verhalten und wiederholte lokale Workloads
Modelfile	`FROM`, `PARAMETER`, `TEMPLATE`, `SYSTEM`, `ADAPTER`, `LICENSE`, `MESSAGE`, `REQUIRES`	ermöglicht reproduzierbare Anpassung statt losem Prompt-Handwerk

Genau hier trennt sich Spielerei von Betriebsmodell. Wer mit JSON-Schema, Modelfile und bewusstem Modell-Lebenszyklus arbeitet, baut bereits ein reproduzierbares lokales KI-System und nicht nur eine Testkonsole.

Eine kleine Modellrotation ist belastbarer als eine ungepflegte Sammlung

Die offizielle Bibliothek macht es leicht, immer neue Modelle zu ziehen. Für den Betrieb ist aber meist das Gegenteil sinnvoll: wenige klar benannte Rollen statt einer unübersichtlichen Sammlung.

Rolle	Wozu sie dient	Typische Regel
Baseline-Modell	Referenz für wiederholbare Tests	nur selten wechseln, damit Ergebnisse vergleichbar bleiben
Arbeitsmodell	dein aktueller produktiver oder täglicher Pfad	mit festen Parametern und klarer keep_alive-Strategie betreiben
Stretch-Modell	gezielte Gegenprobe gegen ein größeres oder spezialisierteres Modell	nur nutzen, wenn es eine konkrete Qualitätsfrage beantwortet

So bleibt lokales Testen beherrschbar: weniger Speicherchaos, klarere Kostenbilder und ein nachvollziehbarer Pfad zwischen Alltag, Vergleich und Ausbau.

Wann Ollama allein reicht und wann du mehr Serving-Disziplin brauchst

Einordnung: Die folgende Trennung ist eine Inferenz aus dem offiziellen Ollama-Betriebsmodell und keine ausdrückliche Produktgrenze aus der Dokumentation.

Szenario	Ollama oft ausreichend	Woran du merkst, dass mehr nötig wird
lokale Einzelplatz-Evaluierung	ja	kaum
interne kleine Automationen und private Tools	oft ja	wenn Auth, zentrales Quota-Management oder komplexe Mehrnutzerlogik wichtig wird
Team- oder Dauerbetrieb	nur bedingt	wenn Monitoring, Rollout, Rechte, Wartungsfenster und standardisierte Bereitstellung wichtiger werden
große Modelllandschaften und mehrere Nutzer gleichzeitig	eher begrenzt	wenn Runtime-Management, Queueing oder Infrastrukturgrenzen explizit entworfen werden müssen

Für die meisten Leser ist das aber kein Gegenargument, sondern gerade der Vorteil: Ollama ist stark, weil du klein, lokal und messbar anfangen kannst.

Vom Desktop-Test zum belastbaren Dienst: erst nach einer kleinen Freigabematrix

Viele lokale KI-Setups scheitern nicht an der Installation, sondern am zu frühen Produktivanspruch. Eine minimale Freigabematrix verhindert genau das.

Freigabekriterium	Warum es relevant ist
Modell und Tag sind fest gewählt	sonst ändert sich die Laufzeitgrundlage unbemerkt mit jedem Modellwechsel
API-Pfad ist bewusst gewählt	`/api/generate`, `/api/chat` und OpenAI-Kompatibilität bedienen unterschiedliche Integrationspfade
kalte und warme Laufzeiten sind gemessen	erst dann weißt du, ob der Workflow unter echter Nutzung tragfähig ist
Speicher- und Prozessorpfad sind sichtbar	`keep_alive` und `ollama ps` entscheiden mit über Stabilität und Hostdruck
Netz- oder Benutzerzugriff ist bewusst begrenzt	die lokale No-Auth-Standardeinstellung ist für Desktopnutzung praktisch, aber kein automatischer Mehrnutzerpfad

Diese Matrix ist keine offizielle Checkliste von Ollama, sondern eine Betriebsinferenz aus API, FAQ und Authentifizierungsdoku. Genau dadurch wird aus "läuft bei mir" ein reproduzierbarer lokaler Dienst.

Lokale KI ist nicht kostenlos, aber sie macht Kosten endlich messbar

Auch ohne Tokenabrechnung bleibt lokale KI ein echter Kostenblock: Modell-Speicher, GPU/CPU-Last, Strom, Kühlung und Betriebszeit. Der Gewinn ist jedoch, dass diese Kosten nicht geschätzt werden müssen.

Wenn du API-Antwortfelder, Stromverbrauch und Modellgröße zusammen dokumentierst, kannst du sauber gegenrechnen: Wann ist ein lokaler Lauf sinnvoll, wann reicht eine API, und wann ist ein Hybridweg klüger? Genau dafür sind Inferenzkosten-Rechner und KI-API-Preise Vergleich die bessere Ergänzung als pauschale "lokal ist immer billiger"-Behauptungen.

Vor dem dauerhaften Einsatz drei Freigaben einholen: Latenzpfad, Hostdruck und API-Alternative

Ollama ist stark, weil du lokal und klein anfangen kannst. Genau deshalb solltest du den Übergang vom Desktop-Test zum dauerhaften Einsatz nicht aus dem Bauch entscheiden, sondern mit drei getrennten Freigaben.

Prüffeld	Woran du es prüfst	Warum es vor Dauerbetrieb wichtig ist
Latenzpfad	`load_duration`, `total_duration` sowie kalte versus warme Läufe	erst damit wird sichtbar, ob ein lokaler Workflow für deinen echten Use Case schnell genug ist oder nur im Warmstart gut aussieht
Hostdruck und Dauerlast	Inferenzkosten-Rechner, `ollama ps` und bei GPU-Pfaden GPU für lokale KI	ein Modell kann fachlich passen und trotzdem CPU, GPU, RAM oder Kühlung des Hosts unangemessen belasten
API-Alternative	KI-API-Preise Vergleich plus derselbe Testfall auf dem externen Modellpfad	erst der direkte Gegenvergleich zeigt, ob lokaler Betrieb wirklich der richtige Standardpfad ist oder nur eine interessante Zusatzoption

Einordnung: Diese Matrix ist eine Betriebsinferenz aus API-Dokumentation, FAQ und Structured-Output-Pfaden. Sie ist deshalb nützlich, weil sie eine Runtime-Frage von einer Kosten- und einer Qualitätsfrage trennt, statt alles unter "läuft lokal" zusammenzufassen.

Vom lokalen Tool zum internen KI-Dienst fuehrt ein eigener Cutover-Pfad

Die meisten Ollama-Setups kippen nicht am Prompt, sondern beim Rollenwechsel: Aus einem Desktop-Test wird ploetzlich ein intern genutzter Modelldienst. Genau an dieser Stelle brauchst du einen eigenen Cutover-Pfad statt nur mehr Modelle im Speicher.

Stufe	Was du freigeben musst	Warum der Schritt ueber reines Modelltesten hinausgeht
lokaler Einzelplatz	Modelltag, API-Pfad und Warm-/Kaltverhalten sind stabil gemessen	hier reicht meist localhost und eine enge Evaluationsmatrix
interne Automatisierung	welche Clients die API nutzen, wie Structured Outputs aussehen und wie der Hostdruck beobachtet wird	ab hier wird Monitoring Teil derselben Architektur
netzweit genutzter Dienst	Zugriffskontrolle, Reverse-Proxy- oder Segmentierungsweg und Rollback fuer den API-Pfad	localhost ohne Auth ist dann kein ausreichendes Betriebsmodell mehr
dauerhafter KI-Host	GPU-, CPU-, RAM- und Strompfad sind fuer den echten Alltag freigegeben	dann wird aus Ollama ein 24/7-Dienst und nicht nur ein bequemer Launcher

Der Wert dieser Tabelle ist direkt: Sie trennt einen Runtime-Test von einem Service-Cutover. Genau dadurch wird lokales KI-Experimentieren nicht mit produktivem KI-Betrieb verwechselt.

Fazit: Ollama ist dann stark, wenn du es wie eine Runtime behandelst

Ollama ist ein sehr guter Einstieg in lokale KI, wenn du vier Dinge sauber trennst: Plattformgrenzen, Modellwahl, API-Pfad und Messung. Dann wird aus einer Testinstallation ein belastbares lokales System.

Wer dagegen nur Modelle sammelt, ohne Antwortfelder, Speicherbedarf und Betriebsgrenzen zu messen, hat zwar lokale KI installiert, aber noch keine brauchbare Entscheidungsgrundlage gebaut.

Häufig gestellte Fragen

Brauche ich für Ollama zwingend eine NVIDIA-GPU?

Nein. Laut offizieller macOS-Dokumentation unterstützt Ollama auf Apple-M-Systemen CPU und GPU, auf macOS x86 aber nur CPU. Die Windows-Dokumentation nennt zusätzlich NVIDIA- und AMD-Radeon-Support. Welche Plattform für dich reicht, hängt von Modellgröße und Antwortzeit ab.

Wie finde ich das richtige Startmodell?

Nimm das kleinste Modell aus der offiziellen Bibliothek, das deinen Zweck grundsätzlich abdeckt, und miss danach Qualität, Ladezeit und Generationsdauer mit eigenen Aufgaben. Größer ist nicht automatisch sinnvoller.

Kann ich bestehende OpenAI-Clients mit Ollama weiterverwenden?

Oft ja. Ollama dokumentiert eine OpenAI-kompatible API mit Endpunkten wie /v1/chat/completions, /v1/completions, /v1/models und /v1/embeddings. Genau das macht es für bestehende lokale Integrationen attraktiv.

Wann nutze ich eher /api/generate und wann /api/chat?

Für einfache Einzelprompts und rohe Generierung ist /api/generate oft der geradlinigere Start. Sobald Gesprächsverlauf, Tools oder strukturierte Antwortlogik wichtiger werden, ist /api/chat meist die passendere Schnittstelle.

Wie verhindere ich, dass das Modell nach jedem Request neu geladen wird?

Dafür ist der keep_alive-Parameter relevant. Die offizielle API nennt ihn ausdrücklich als Steuerung dafür, wie lange ein Modell geladen bleiben soll.

Kann ich die Ollama-API einfach im Netzwerk oder öffentlich freigeben?

Nicht roh als Default. Ollama dokumentiert für lokale Verbindungen standardmäßig keine erforderliche Authentifizierung und legt die API lokal auf localhost aus. Für alles über den reinen Einzelplatz hinaus brauchst du deshalb bewusst entworfene Zugriffskontrolle statt bloßes Weiterreichen des lokalen Dienstes.

Wofür ist ein Modelfile praktisch?

Für reproduzierbare Anpassung. Statt lose Systemprompts und Ad-hoc-Optionen überall zu verstreuen, definierst du Basis, Parameter, Template und weitere Eigenschaften strukturiert an einer Stelle.

Wann sollte ich mit Ollama nicht automatisch im Dauerbetrieb bleiben?

Immer dann, wenn nur Warmstarts gut aussehen, der Host unter echter Last zu stark unter Druck gerät oder derselbe Use Case über eine externe API wirtschaftlich und organisatorisch sauberer läuft. Lokale Verfügbarkeit allein ist noch keine Betriebsfreigabe.

Wann wird Ollama vom lokalen Werkzeug zum echten internen Dienst?

Sobald mehrere Clients darauf bauen oder der API-Pfad nicht mehr nur localhost ist. Dann brauchst du neben Modellwahl und Messwerten auch Zugriffskontrolle, Monitoring, Rollback und einen bewusst freigegebenen Hostpfad.

Themenhubs für den nächsten Schritt

Diese Spezialseiten verbinden Einzelartikel, Tabellen und Rechner zu einer konsistenten Entscheidungslogik. Wenn du vom isolierten Problem zur belastbaren Systementscheidung weitergehen willst, starte hier.

Quellen & Primärdaten

Ollama API Introduction - Im Audit am 4. April 2026 erneut verifiziert: lokale API unter http://localhost:11434/api als Standard-Basis-URL.
Ollama API - Generate - Im Audit am 4. April 2026 erneut verifiziert: /api/generate sowie Felder wie total_duration, load_duration, prompt_eval_count und eval_count.
Ollama API - Chat - Im Audit am 4. April 2026 erneut verifiziert: /api/chat, tools, format, think, keep_alive und Chat-spezifische Rückgabestruktur.
Ollama OpenAI Compatibility - Im Audit am 4. April 2026 erneut verifiziert: OpenAI-kompatible Endpunkte wie /v1/chat/completions, /v1/completions, /v1/models, /v1/embeddings und /v1/responses.
Ollama Authentication - Im Audit am 4. April 2026 erneut verifiziert: für lokale Verbindungen ist standardmäßig keine Authentifizierung erforderlich; Netz- oder Mehrnutzerzugriffe brauchen deshalb bewusst ergänzte Zugriffskontrolle.
Ollama Structured Outputs - Im Audit am 4. April 2026 erneut verifiziert: JSON-Mode und JSON-Schema als offizieller Structured-Output-Pfad.
Ollama FAQ - Im Audit am 4. April 2026 erneut verifiziert: Modelle bleiben standardmäßig 5 Minuten geladen; `keep_alive`, `ollama stop` und `ollama ps` sind zentrale Laufzeitanker für warmen und kalten Betrieb.
Ollama Modelfile Reference - Im Audit am 4. April 2026 erneut verifiziert: FROM, PARAMETER, TEMPLATE, SYSTEM, ADAPTER, LICENSE, MESSAGE und REQUIRES als Modelfile-Instruktionen.
Ollama macOS - Im Audit am 4. April 2026 erneut verifiziert: macOS Sonoma 14+, Apple M mit CPU/GPU-Support und x86 nur CPU.
Ollama Windows - Im Audit am 4. April 2026 erneut verifiziert: Windows 10 22H2+, NVIDIA-/AMD-Radeon-Support, localhost:11434 sowie Speicheranforderungen für Installation und Modelle.
Ollama Library - Im Audit am 4. April 2026 erneut verifiziert: offizielle Modellfamilien und gelistete Größen als Startpunkt für die Modellwahl.