
Lokale KI mit Ollama: Runtime, API-Pfade und Modellwahl professionell testen
Ollama ist mehr als ein schneller Desktop-Installer. Dieser Leitfaden trennt Runtime, API, Modellbibliothek, Messwerte und Anpassung per Modelfile sauber anhand offizieller Ollama-Dokumentation.
Diese Seite macht Rechenannahmen, Quellenlage und Aktualität transparent. Für Methodik, Korrekturen und unseren Umgang mit Automatisierung siehe Redaktionsgrundsätze.
Ollama ist nicht nur ein Installer, sondern eine lokale Runtime mit API
Der pragmatische Vorteil von Ollama liegt nicht darin, dass es "KI einfach macht", sondern dass es mehrere Infrastrukturfragen zusammenzieht: Modellverwaltung, lokale Laufzeit und eine direkte API.
Die offizielle API-Dokumentation ist hier eindeutig: Nach der Installation ist Ollamas API standardmäßig unter http://localhost:11434/api verfügbar. Genau deshalb ist Ollama nicht nur eine lokale Chat-Oberfläche, sondern ein lokaler Modelldienst, den andere Tools ansprechen können.
| Ebene | Was Ollama offiziell bietet | Warum das wichtig ist |
|---|---|---|
| Runtime | lokale Modell-Ausführung auf dem eigenen System | du testest lokal, ohne sofort einen separaten Serving-Stack zu bauen |
| API | lokaler HTTP-Endpunkt auf localhost:11434 |
Workflows lassen sich skripten und in bestehende Tools einhängen |
| Modellverwaltung | offizielle Bibliothek plus Modelfile für Anpassungen | du musst nicht mit rohen Gewichten und eigener Prompt-Templating-Logik anfangen |
Für viele Einsteiger ist genau das der Unterschied zwischen "mal lokale KI ausprobieren" und einem tatsächlich reproduzierbaren Testsetup.
localhost ist eine Vertrauensgrenze, aber noch keine Zugriffskontrolle
Die offizielle Dokumentation sagt zwei Dinge, die zusammen gelesen werden müssen: Die API liegt standardmäßig auf http://localhost:11434/api, und die Authentifizierungsseite stellt klar, dass für lokale Verbindungen standardmäßig keine Authentifizierung erforderlich ist. Das ist für Einzelplatz- und Testnutzung praktisch, aber es ist keine fertige Sicherheitsarchitektur.
| Situation | Was die offizielle Doku hergibt | Praktische Folge |
|---|---|---|
| lokaler Desktop-Test | API auf localhost, lokal ohne Auth | für Einzelplatznutzung bequem und direkt |
| interner Dienst im eigenen Netz | die API ist nutzbar, aber Auth muss bewusst ergänzt werden | Netzsegment, Reverse Proxy oder andere Zugriffskontrolle werden Teil des Designs |
| öffentliche Freigabe | Ollama dokumentiert keine "einfach öffentlich und fertig"-Standardabsicherung | rohes Weiterreichen der lokalen API ist kein sauberer Default |
Einordnung: Der letzte Punkt ist eine Sicherheitsinferenz aus der lokalen Default-Architektur. Genau deshalb sollte Reverse Proxy oder ein anderer klarer Zugangspfad erst dann dazukommen, wenn überhaupt ein echter Mehrnutzer- oder Netzbedarf existiert.
Plattformgrenzen zuerst prüfen: Ollama läuft nicht überall gleich
Die offiziellen Installationsseiten machen die Plattformgrenzen klarer als viele Tutorials:
| Plattform | Offiziell belegbare Anker | Praktische Folge |
|---|---|---|
| macOS | macOS Sonoma 14 oder neuer; Apple M mit CPU- und GPU-Support, x86 nur CPU | Apple Silicon ist der naheliegendere Mac-Pfad für lokale KI |
| Windows | Windows 10 22H2 oder neuer; NVIDIA- oder AMD-Radeon-Support; API ebenfalls auf localhost:11434 |
Windows ist offiziell kein Bastelpfad mehr, aber Treiberzustand bleibt Teil der Planung |
| Linux | offizieller Download- und Installationspfad über Ollama-Downloadseite | für Self-Hosting-Stacks bleibt Linux oft der naheliegendste Betriebsweg |
Zusätzlich nennen die Windows- und macOS-Dokumente einen Punkt, den viele Seiten unterschlagen: Nach der Binärinstallation brauchst du zusätzlichen Speicher für Modelle. Lokale KI scheitert daher oft nicht zuerst an der Installation, sondern an Speicherplanung und Modellpflege.
Die Modellwahl beginnt mit der Bibliothek, nicht mit YouTube-Empfehlungen
Die offizielle Ollama-Bibliothek listet Modellfamilien und verfügbare Größen. Schon das reicht für eine deutlich bessere Startentscheidung als jede Pauschalempfehlung.
| Familie | Offiziell gelistete Größen | Saubere Einordnung |
|---|---|---|
| Llama 3.2 | 1B, 3B | kleiner, guter Einstieg für lokale Funktionstests und einfache Automationsideen |
| Gemma 3 | 270M, 1B, 4B, 12B, 27B | breite Spanne vom Minimalmodell bis zur Einzel-GPU-Klasse |
| Qwen 2.5 | 0.5B, 1.5B, 3B, 7B, 14B, 32B, 72B | deckt vom kleinen Testmodell bis zu deutlich schwereren lokalen Workloads viel ab |
| Llama 3.1 | 8B, 70B, 405B | macht sofort sichtbar, wie groß der Abstand zwischen Desktop-Test und großem Modell wirklich ist |
Einordnung: Die korrekte Reihenfolge ist fast immer: kleinstes ausreichendes Modell, dann Qualitätsprüfung, dann Laufzeit- und Lastmessung, erst danach ein größerer Schritt. Wer umgekehrt startet, investiert zuerst Speicher, VRAM und Wartezeit, bevor überhaupt klar ist, ob der Use Case funktioniert.
Wenn die Modellgröße zur eigentlichen Hardwarefrage wird, geht es in GPU für lokale KI und LLM-VRAM-Anforderungen tiefer weiter.
Vor dem Modellwechsel steht eine feste Evaluationsmatrix
Das häufigste lokale KI-Problem ist nicht die Installation, sondern das unsaubere Testen. Wer heute ein kleines Modell, morgen ein größeres und übermorgen andere Prompts nutzt, vergleicht am Ende nicht Modelle, sondern Chaos. Der bessere Weg ist eine feste Evaluationsmatrix.
| Prüffeld | Was du pro Testlauf festhältst | Warum es wichtig ist |
|---|---|---|
| Use Case | z. B. Zusammenfassung, Extraktion, Chat, RAG oder Codehilfe | ohne festen Zweck ist "besser" nicht messbar |
| Antwortformat | Freitext, JSON, JSON-Schema oder Chat-Antwort | entscheiden über /api/generate, /api/chat und Structured Outputs |
| Hardwarekontext | Gerät, Speicher, GPU/CPU-Pfad, warm oder kalt geladen | erst dadurch werden Antwortzeiten vergleichbar |
| Messfelder | load_duration, total_duration, prompt_eval_* und eval_* | damit vergleichst du reale Last statt Fremdbenchmarks |
| Pass/Fail-Kriterium | fachliche Mindestqualität und maximal tolerierbare Wartezeit | verhindert Modellwechsel ohne echte Entscheidung |
Einordnung: Diese Matrix ist kein Ollama-Feature, sondern ein Betriebsprinzip. Sie macht aus lokalem Herumprobieren eine belastbare Auswahlentscheidung.
API-Pfade sauber trennen: Generate, Chat und OpenAI-Kompatibilität sind nicht dasselbe
Ollama dokumentiert mehrere API-Wege, und genau daraus entsteht im Alltag viel Klarheit:
| Pfad | Offiziell dokumentierter Zweck | Wann du ihn sinnvoll nutzt |
|---|---|---|
/api/generate |
generiert eine Antwort für einen Prompt | wenn du einfache Einzelprompts oder Roh-Generierung testen willst |
/api/chat |
erzeugt die nächste Chat-Nachricht in einer Unterhaltung | wenn du echte Chat-Historie, Tools oder strukturierte Antworten brauchst |
| OpenAI-kompatible Endpunkte | u. a. /v1/chat/completions, /v1/completions, /v1/models, /v1/embeddings, /v1/responses |
wenn du bestehende OpenAI-Clients oder Integrationen lokal weiterverwenden willst |
Das ist ein wichtiger Architekturpunkt: Ollama ist nicht nur eine App zum "Runterladen und Chatten". Es kann auch als lokaler OpenAI-kompatibler Backend-Dienst in bestehende Workflows eingeschoben werden. Genau dadurch wird es für interne Tools, Automationen oder private Prototypen deutlich wertvoller.
Nicht Benchmarks abschreiben, sondern die Response-Felder des eigenen Systems auswerten
Ollamas API liefert selbst schon die wichtigen Rohdaten für eine saubere Messung. Die dokumentierten Antwortfelder bei /api/generate und /api/chat enthalten unter anderem:
| Feld | Warum es praktisch relevant ist |
|---|---|
load_duration |
zeigt, wie teuer das Laden des Modells wirklich ist |
prompt_eval_count und prompt_eval_duration |
zeigen, wie schwer dein Eingabekontext ist |
eval_count und eval_duration |
geben dir die eigentliche Generationslast der Antwort |
total_duration |
zeigt die Gesamtkosten eines Requests |
Damit kannst du reale Tests fahren: kalter Modellstart gegen warmen Lauf, kurze Prompts gegen lange Kontexte, kleines Modell gegen größeres Modell. Diese Messung ist für lokale KI deutlich wertvoller als jede fremde "Tokens pro Sekunde"-Liste ohne identische Hardware und identische Runtime.
Kalter Start, warmes Modell, bewusstes Entladen: der Modelllebenszyklus gehört zur Laufzeit
Die Ollama-FAQ ist hier sehr konkret: Modelle bleiben standardmäßig 5 Minuten im Speicher, du kannst mit keep_alive aber abweichende Werte setzen, mit 0 sofort entladen oder mit -1 unbegrenzt geladen halten. Zusätzlich zeigt ollama ps nicht nur geladene Modelle, sondern auch den Processor-Pfad, also ob die Last auf GPU, CPU oder gemischt läuft.
| Laufzeitzustand | Offizieller Anker | Warum er für den Betrieb wichtig ist |
|---|---|---|
| kalter Start | load_duration und FAQ-Hinweise zur Speicherhaltung |
erst hier siehst du, ob ein Desktop- oder Tool-Workflow auf Wartezeiten sensibel reagiert |
| warmes Modell | keep_alive hält Modelle im Speicher |
entscheidet über Antwortzeit, RAM/VRAM-Belegung und Mehrfachnutzung |
| bewusstes Entladen | keep_alive: 0 oder ollama stop |
wichtig für kleine Hosts, Testrotation und saubere Ressourcenhygiene |
| unbegrenztes Vorhalten | keep_alive: -1 |
nur sinnvoll, wenn das Modell wirklich dauerhaft gebraucht wird und der Speicherpfad das tragen kann |
Genau hier wird aus einem Demo-Installer eine Runtime: Du steuerst bewusst, ob Modelle nur ad hoc geladen, für wiederkehrende Anfragen warm gehalten oder nach Tests wieder freigegeben werden. Ohne diese Disziplin ist lokales KI-Testen schnell eher Speicherverwaltung als Produktivarbeit.
Structured Outputs, keep_alive und Modelfile: hier wird aus Testen ein System
Ollama ist inzwischen deutlich mehr als ein simples Prompt-Werkzeug. Drei offizielle Funktionen sind für ernsthafte lokale Nutzung besonders wichtig:
| Funktion | Offiziell dokumentierter Anker | Warum sie wichtig ist |
|---|---|---|
| Structured Outputs | JSON oder JSON-Schema als Rückgabeformat | macht Extraktion, Automatisierung und feste Antwortstrukturen deutlich robuster |
keep_alive |
bestimmt, wie lange ein Modell geladen bleibt, z. B. 5m oder 0 |
wichtig für kalte Starts, RAM/VRAM-Verhalten und wiederholte lokale Workloads |
| Modelfile | FROM, PARAMETER, TEMPLATE, SYSTEM, ADAPTER, LICENSE, MESSAGE, REQUIRES |
ermöglicht reproduzierbare Anpassung statt losem Prompt-Handwerk |
Genau hier trennt sich Spielerei von Betriebsmodell. Wer mit JSON-Schema, Modelfile und bewusstem Modell-Lebenszyklus arbeitet, baut bereits ein reproduzierbares lokales KI-System und nicht nur eine Testkonsole.
Eine kleine Modellrotation ist belastbarer als eine ungepflegte Sammlung
Die offizielle Bibliothek macht es leicht, immer neue Modelle zu ziehen. Für den Betrieb ist aber meist das Gegenteil sinnvoll: wenige klar benannte Rollen statt einer unübersichtlichen Sammlung.
| Rolle | Wozu sie dient | Typische Regel |
|---|---|---|
| Baseline-Modell | Referenz für wiederholbare Tests | nur selten wechseln, damit Ergebnisse vergleichbar bleiben |
| Arbeitsmodell | dein aktueller produktiver oder täglicher Pfad | mit festen Parametern und klarer keep_alive-Strategie betreiben |
| Stretch-Modell | gezielte Gegenprobe gegen ein größeres oder spezialisierteres Modell | nur nutzen, wenn es eine konkrete Qualitätsfrage beantwortet |
So bleibt lokales Testen beherrschbar: weniger Speicherchaos, klarere Kostenbilder und ein nachvollziehbarer Pfad zwischen Alltag, Vergleich und Ausbau.
Wann Ollama allein reicht und wann du mehr Serving-Disziplin brauchst
Einordnung: Die folgende Trennung ist eine Inferenz aus dem offiziellen Ollama-Betriebsmodell und keine ausdrückliche Produktgrenze aus der Dokumentation.
| Szenario | Ollama oft ausreichend | Woran du merkst, dass mehr nötig wird |
|---|---|---|
| lokale Einzelplatz-Evaluierung | ja | kaum |
| interne kleine Automationen und private Tools | oft ja | wenn Auth, zentrales Quota-Management oder komplexe Mehrnutzerlogik wichtig wird |
| Team- oder Dauerbetrieb | nur bedingt | wenn Monitoring, Rollout, Rechte, Wartungsfenster und standardisierte Bereitstellung wichtiger werden |
| große Modelllandschaften und mehrere Nutzer gleichzeitig | eher begrenzt | wenn Runtime-Management, Queueing oder Infrastrukturgrenzen explizit entworfen werden müssen |
Für die meisten Leser ist das aber kein Gegenargument, sondern gerade der Vorteil: Ollama ist stark, weil du klein, lokal und messbar anfangen kannst.
Vom Desktop-Test zum belastbaren Dienst: erst nach einer kleinen Freigabematrix
Viele lokale KI-Setups scheitern nicht an der Installation, sondern am zu frühen Produktivanspruch. Eine minimale Freigabematrix verhindert genau das.
| Freigabekriterium | Warum es relevant ist |
|---|---|
| Modell und Tag sind fest gewählt | sonst ändert sich die Laufzeitgrundlage unbemerkt mit jedem Modellwechsel |
| API-Pfad ist bewusst gewählt | /api/generate, /api/chat und OpenAI-Kompatibilität bedienen unterschiedliche Integrationspfade |
| kalte und warme Laufzeiten sind gemessen | erst dann weißt du, ob der Workflow unter echter Nutzung tragfähig ist |
| Speicher- und Prozessorpfad sind sichtbar | keep_alive und ollama ps entscheiden mit über Stabilität und Hostdruck |
| Netz- oder Benutzerzugriff ist bewusst begrenzt | die lokale No-Auth-Standardeinstellung ist für Desktopnutzung praktisch, aber kein automatischer Mehrnutzerpfad |
Diese Matrix ist keine offizielle Checkliste von Ollama, sondern eine Betriebsinferenz aus API, FAQ und Authentifizierungsdoku. Genau dadurch wird aus "läuft bei mir" ein reproduzierbarer lokaler Dienst.
Lokale KI ist nicht kostenlos, aber sie macht Kosten endlich messbar
Auch ohne Tokenabrechnung bleibt lokale KI ein echter Kostenblock: Modell-Speicher, GPU/CPU-Last, Strom, Kühlung und Betriebszeit. Der Gewinn ist jedoch, dass diese Kosten nicht geschätzt werden müssen.
Wenn du API-Antwortfelder, Stromverbrauch und Modellgröße zusammen dokumentierst, kannst du sauber gegenrechnen: Wann ist ein lokaler Lauf sinnvoll, wann reicht eine API, und wann ist ein Hybridweg klüger? Genau dafür sind Inferenzkosten-Rechner und KI-API-Preise Vergleich die bessere Ergänzung als pauschale "lokal ist immer billiger"-Behauptungen.
Vor dem dauerhaften Einsatz drei Freigaben einholen: Latenzpfad, Hostdruck und API-Alternative
Ollama ist stark, weil du lokal und klein anfangen kannst. Genau deshalb solltest du den Übergang vom Desktop-Test zum dauerhaften Einsatz nicht aus dem Bauch entscheiden, sondern mit drei getrennten Freigaben.
| Prüffeld | Woran du es prüfst | Warum es vor Dauerbetrieb wichtig ist |
|---|---|---|
| Latenzpfad | load_duration, total_duration sowie kalte versus warme Läufe |
erst damit wird sichtbar, ob ein lokaler Workflow für deinen echten Use Case schnell genug ist oder nur im Warmstart gut aussieht |
| Hostdruck und Dauerlast | Inferenzkosten-Rechner, ollama ps und bei GPU-Pfaden GPU für lokale KI |
ein Modell kann fachlich passen und trotzdem CPU, GPU, RAM oder Kühlung des Hosts unangemessen belasten |
| API-Alternative | KI-API-Preise Vergleich plus derselbe Testfall auf dem externen Modellpfad | erst der direkte Gegenvergleich zeigt, ob lokaler Betrieb wirklich der richtige Standardpfad ist oder nur eine interessante Zusatzoption |
Einordnung: Diese Matrix ist eine Betriebsinferenz aus API-Dokumentation, FAQ und Structured-Output-Pfaden. Sie ist deshalb nützlich, weil sie eine Runtime-Frage von einer Kosten- und einer Qualitätsfrage trennt, statt alles unter "läuft lokal" zusammenzufassen.
Vom lokalen Tool zum internen KI-Dienst fuehrt ein eigener Cutover-Pfad
Die meisten Ollama-Setups kippen nicht am Prompt, sondern beim Rollenwechsel: Aus einem Desktop-Test wird ploetzlich ein intern genutzter Modelldienst. Genau an dieser Stelle brauchst du einen eigenen Cutover-Pfad statt nur mehr Modelle im Speicher.
| Stufe | Was du freigeben musst | Warum der Schritt ueber reines Modelltesten hinausgeht |
|---|---|---|
| lokaler Einzelplatz | Modelltag, API-Pfad und Warm-/Kaltverhalten sind stabil gemessen | hier reicht meist localhost und eine enge Evaluationsmatrix |
| interne Automatisierung | welche Clients die API nutzen, wie Structured Outputs aussehen und wie der Hostdruck beobachtet wird | ab hier wird Monitoring Teil derselben Architektur |
| netzweit genutzter Dienst | Zugriffskontrolle, Reverse-Proxy- oder Segmentierungsweg und Rollback fuer den API-Pfad | localhost ohne Auth ist dann kein ausreichendes Betriebsmodell mehr |
| dauerhafter KI-Host | GPU-, CPU-, RAM- und Strompfad sind fuer den echten Alltag freigegeben | dann wird aus Ollama ein 24/7-Dienst und nicht nur ein bequemer Launcher |
Der Wert dieser Tabelle ist direkt: Sie trennt einen Runtime-Test von einem Service-Cutover. Genau dadurch wird lokales KI-Experimentieren nicht mit produktivem KI-Betrieb verwechselt.
Fazit: Ollama ist dann stark, wenn du es wie eine Runtime behandelst
Ollama ist ein sehr guter Einstieg in lokale KI, wenn du vier Dinge sauber trennst: Plattformgrenzen, Modellwahl, API-Pfad und Messung. Dann wird aus einer Testinstallation ein belastbares lokales System.
Wer dagegen nur Modelle sammelt, ohne Antwortfelder, Speicherbedarf und Betriebsgrenzen zu messen, hat zwar lokale KI installiert, aber noch keine brauchbare Entscheidungsgrundlage gebaut.
Häufig gestellte Fragen
Brauche ich für Ollama zwingend eine NVIDIA-GPU?
Nein. Laut offizieller macOS-Dokumentation unterstützt Ollama auf Apple-M-Systemen CPU und GPU, auf macOS x86 aber nur CPU. Die Windows-Dokumentation nennt zusätzlich NVIDIA- und AMD-Radeon-Support. Welche Plattform für dich reicht, hängt von Modellgröße und Antwortzeit ab.
Wie finde ich das richtige Startmodell?
Nimm das kleinste Modell aus der offiziellen Bibliothek, das deinen Zweck grundsätzlich abdeckt, und miss danach Qualität, Ladezeit und Generationsdauer mit eigenen Aufgaben. Größer ist nicht automatisch sinnvoller.
Kann ich bestehende OpenAI-Clients mit Ollama weiterverwenden?
Oft ja. Ollama dokumentiert eine OpenAI-kompatible API mit Endpunkten wie /v1/chat/completions, /v1/completions, /v1/models und /v1/embeddings. Genau das macht es für bestehende lokale Integrationen attraktiv.
Wann nutze ich eher /api/generate und wann /api/chat?
Für einfache Einzelprompts und rohe Generierung ist /api/generate oft der geradlinigere Start. Sobald Gesprächsverlauf, Tools oder strukturierte Antwortlogik wichtiger werden, ist /api/chat meist die passendere Schnittstelle.
Wie verhindere ich, dass das Modell nach jedem Request neu geladen wird?
Dafür ist der keep_alive-Parameter relevant. Die offizielle API nennt ihn ausdrücklich als Steuerung dafür, wie lange ein Modell geladen bleiben soll.
Kann ich die Ollama-API einfach im Netzwerk oder öffentlich freigeben?
Nicht roh als Default. Ollama dokumentiert für lokale Verbindungen standardmäßig keine erforderliche Authentifizierung und legt die API lokal auf localhost aus. Für alles über den reinen Einzelplatz hinaus brauchst du deshalb bewusst entworfene Zugriffskontrolle statt bloßes Weiterreichen des lokalen Dienstes.
Wofür ist ein Modelfile praktisch?
Für reproduzierbare Anpassung. Statt lose Systemprompts und Ad-hoc-Optionen überall zu verstreuen, definierst du Basis, Parameter, Template und weitere Eigenschaften strukturiert an einer Stelle.
Wann sollte ich mit Ollama nicht automatisch im Dauerbetrieb bleiben?
Immer dann, wenn nur Warmstarts gut aussehen, der Host unter echter Last zu stark unter Druck gerät oder derselbe Use Case über eine externe API wirtschaftlich und organisatorisch sauberer läuft. Lokale Verfügbarkeit allein ist noch keine Betriebsfreigabe.
Wann wird Ollama vom lokalen Werkzeug zum echten internen Dienst?
Sobald mehrere Clients darauf bauen oder der API-Pfad nicht mehr nur localhost ist. Dann brauchst du neben Modellwahl und Messwerten auch Zugriffskontrolle, Monitoring, Rollback und einen bewusst freigegebenen Hostpfad.
Verwandte Tabellen
Themenhubs für den nächsten Schritt
Diese Spezialseiten verbinden Einzelartikel, Tabellen und Rechner zu einer konsistenten Entscheidungslogik. Wenn du vom isolierten Problem zur belastbaren Systementscheidung weitergehen willst, starte hier.
Quellen & Primärdaten
- Ollama API Introduction - Im Audit am 4. April 2026 erneut verifiziert: lokale API unter http://localhost:11434/api als Standard-Basis-URL.
- Ollama API - Generate - Im Audit am 4. April 2026 erneut verifiziert: /api/generate sowie Felder wie total_duration, load_duration, prompt_eval_count und eval_count.
- Ollama API - Chat - Im Audit am 4. April 2026 erneut verifiziert: /api/chat, tools, format, think, keep_alive und Chat-spezifische Rückgabestruktur.
- Ollama OpenAI Compatibility - Im Audit am 4. April 2026 erneut verifiziert: OpenAI-kompatible Endpunkte wie /v1/chat/completions, /v1/completions, /v1/models, /v1/embeddings und /v1/responses.
- Ollama Authentication - Im Audit am 4. April 2026 erneut verifiziert: für lokale Verbindungen ist standardmäßig keine Authentifizierung erforderlich; Netz- oder Mehrnutzerzugriffe brauchen deshalb bewusst ergänzte Zugriffskontrolle.
- Ollama Structured Outputs - Im Audit am 4. April 2026 erneut verifiziert: JSON-Mode und JSON-Schema als offizieller Structured-Output-Pfad.
- Ollama FAQ - Im Audit am 4. April 2026 erneut verifiziert: Modelle bleiben standardmäßig 5 Minuten geladen; `keep_alive`, `ollama stop` und `ollama ps` sind zentrale Laufzeitanker für warmen und kalten Betrieb.
- Ollama Modelfile Reference - Im Audit am 4. April 2026 erneut verifiziert: FROM, PARAMETER, TEMPLATE, SYSTEM, ADAPTER, LICENSE, MESSAGE und REQUIRES als Modelfile-Instruktionen.
- Ollama macOS - Im Audit am 4. April 2026 erneut verifiziert: macOS Sonoma 14+, Apple M mit CPU/GPU-Support und x86 nur CPU.
- Ollama Windows - Im Audit am 4. April 2026 erneut verifiziert: Windows 10 22H2+, NVIDIA-/AMD-Radeon-Support, localhost:11434 sowie Speicheranforderungen für Installation und Modelle.
- Ollama Library - Im Audit am 4. April 2026 erneut verifiziert: offizielle Modellfamilien und gelistete Größen als Startpunkt für die Modellwahl.