Homelab-Monitoring: Verfügbarkeit, SMART und Backup-Frische sauber überwachen
HOMELAB18 Min.· 2026-04-04

Homelab-Monitoring: Verfügbarkeit, SMART und Backup-Frische sauber überwachen

Gutes Homelab-Monitoring ist mehr als ein Dashboard. Dieser Leitfaden verbindet Prometheus, node_exporter, Alertmanager, Grafana, SMART und Uptime-Checks entlang offizieller Dokumentation zu einem belastbaren Betriebsmodell.

Autor:Kevin Luo
Veröffentlicht:04. April 2026
Lesezeit:18 Min.
Quellen:8 verlinkt

Diese Seite macht Rechenannahmen, Quellenlage und Aktualität transparent. Für Methodik, Korrekturen und unseren Umgang mit Automatisierung siehe Redaktionsgrundsätze.

Monitoring ist erst dann sinnvoll, wenn daraus ein Runbook folgt

Viele Homelabs bauen zuerst Dashboards und hoffen, dass daraus später Betrieb entsteht. Professionell ist die Reihenfolge genau andersherum: erst die Betriebsfragen, dann die Metriken, dann die Visualisierung.

Betriebsfrage Typisches Signal Mögliche erste Handlung
Ist der Dienst von außen oder im LAN erreichbar? Uptime-/HTTP-/TCP-Signal DNS, Reverse Proxy, Containerstatus oder Host prüfen
Ist der Host gesund? CPU, RAM, Dateisystem, Netz, Sensoren Lastursache eingrenzen, Storage oder Kühlung prüfen
Bleiben Medien und Backups gesund? SMART, Backup-Alter, letzter erfolgreicher Lauf Datenträger, Sicherungspfad oder Zeitplan prüfen
Ist ein Alarm nur laut oder wirklich relevant? Gruppierung, Schweregrad, Dauer, Abhängigkeit silencen, gruppieren oder Runbook schärfen

Wenn ein Alarm keine definierte erste Handlung auslöst, ist er oft noch kein gutes Monitoring-Signal. Genau deshalb gehört Monitoring direkt zu Backup-Strategie 3-2-1, Reverse Proxy und Server-Kühlung.

Jeder Alarm braucht Besitzer, Kanal und klare Schließbedingung

Prometheus-Regeln und Alertmanager-Funktionen sind erst die technische Hälfte. Die betriebliche Hälfte ist, dass jeder Alarm vorab beantwortet: Wem gehört er?, wie kommt er an? und wann gilt er wieder als erledigt?

Alarmklasse Typisches Signal Eigentümer im Homelab Schließbedingung
Erreichbarkeit HTTP-, TCP-, Ping- oder DNS-Ausfall der Betreiber des veröffentlichten Dienstes Dienst ist wieder erreichbar und Ursache ist dokumentiert
Hostzustand anhaltende Last, RAM-Druck, Dateisystemproblem der Besitzer des Hosts oder Clusters Wert normalisiert sich oder dauerhafte Kapazitätsmaßnahme ist umgesetzt
Storage SMART-Hinweise, Medienfehler, Replikationsproblem der Betreiber des Speicherpfads Medium geprüft, ersetzt oder Fehlerquelle isoliert
Backup-Frische letzte erfolgreiche Sicherung ist zu alt der Verantwortliche für Restore-Fähigkeit neuer erfolgreicher Lauf plus Plausibilitätscheck liegt vor

Einordnung: Diese Alarmklassen sind keine Prometheus-Vorgabe. Sie sind ein belastbares Homelab-Schema, damit aus Regeln und Benachrichtigungen ein echter Betriebsprozess wird.

Symptome alarmieren, Ursachen auf Dashboards und Runbooks auflösen

Die Prometheus-Best-Practice für Alerting ist ungewöhnlich klar: Alerting einfach halten, auf Symptome alerten, gute Konsolen für die Ursachenanalyse bauen und keine Pages erzeugen, bei denen es nichts zu tun gibt. Zusätzlich empfiehlt Prometheus, so wenige Alerts wie möglich zu haben und bei Online-Systemen möglichst weit oben im Stack auf Latenz und Fehler zu alarmieren.

Symptomorientierter Alarm Was er offen lässt Warum das trotzdem besser ist
externer HTTP-Endpunkt wird langsam oder fehlerhaft ob Proxy, App, Datenbank oder DNS die Ursache ist du alarmierst einmal auf den sichtbaren Nutzerschaden und suchst die Ursache danach im Stack
Backup-Job war nicht kürzlich genug erfolgreich ob Zielpfad, Credentials oder Speicher voll sind die Restore-Faehigkeit ist konkret gefaehrdet und braucht Handeln
Kapazität nähert sich der Grenze welcher einzelne Prozess gerade am meisten schreibt Kapazitätsengpässe erfordern oft vor dem Ausfall menschliches Eingreifen

Der operative Gewinn ist groß: Statt gleichzeitig auf Reverse Proxy, App, Host und Container zu paginieren, alarmierst du auf das relevante sichtbare Symptom und nutzt Grafana, Prometheus oder Logs für die Zerlegung. Genau so vermeidest du Alarm-Sturm ohne Blindheit.

Ein kleiner, sauberer Kernstack reicht für die meisten Homelabs

Prometheus definiert in seiner Konfiguration klar, wie Ziele über scrape_configs, static_configs oder Discovery eingesammelt werden und welche rule_files geladen werden. Für viele Homelabs reicht deshalb ein überraschend kleiner Kern:

Baustein Offiziell belegbarer Anker Rolle
Prometheus Konfigurationsdatei definiert Scrape-Jobs, Targets und Rule-Files zentrale Metrikablage und Regel-Engine
node_exporter liefert Hostmetriken und lauscht standardmäßig auf :9100 CPU, RAM, Dateisystem, Netz, Hardware-/OS-Sicht
Alertmanager dedupliziert, gruppiert, routet, silenced und inhibiert Alerts Alarmhygiene statt Nachrichtenflut
Grafana alertet auf Metriken oder Logs aus mehreren Datenquellen Visualisierung, Korrelation, Benachrichtigung
Uptime Kuma unterstützt laut offiziellem README u. a. HTTP(s), TCP, Ping, DNS, Push und Docker-Container Erreichbarkeit und externer Blick auf Dienste
smartctl / smartmontools kontrolliert und überwacht ATA-, SCSI- und NVMe-Speicher mit SMART Medienzustand und Fehlerfrüherkennung

Damit beantwortest du bereits die wichtigsten Fragen: lebt der Dienst, lebt der Host, lebt das Storage und kommt der Alarm in einer Form an, die du auch ernst nehmen kannst.

Host-Metriken: node_exporter ist stark, aber nur wenn er wirklich den Host sieht

Der offizielle node_exporter-README ist für Homelabs besonders nützlich, weil er eine oft übersehene Grenze klar benennt: Der Exporter ist dazu gedacht, den Host zu überwachen. Wenn du ihn containerisiert betreibst, braucht er dafür zusätzliche Sorgfalt.

Aspekt Offizieller Hinweis Praxisfolge
Standard-Port lauscht standardmäßig auf 9100 einfacher Zielanker für Prometheus-Jobs
Containerbetrieb host monitoring in Containern erfordert zusätzliche Flags ohne --path.rootfs, Host-Netz und Host-PID siehst du schnell den Container statt den Host
Zusatz-Collector manche Collector sind absichtlich disabled by default erst gezielt aktivieren und scrape_duration_seconds sowie Kardinalität beobachten

Der gleiche README nennt sogar die richtige Vorsicht beim Aktivieren zusätzlicher Collector: einen nach dem anderen testen und die Auswirkungen auf Dauer und Samples beobachten. Genau das ist der Unterschied zwischen Monitoring und bloßem Metriksammeln.

Storage-Gesundheit und Backup-Frische sind zwei eigene Beobachtungsschichten

SMART ist nicht dasselbe wie Dateisystembelegung, und ein erfolgreicher Host-Scrape bedeutet noch lange nicht, dass dein Backup frisch ist. Für Homelabs sind deshalb mindestens zwei Zusatzschichten sinnvoll:

Schicht Werkzeug Warum sie separat ist
Mediengesundheit smartctl / smartd SMART erkennt Fehlerpfade auf Datenträgern, die keine CPU- oder RAM-Kurve sichtbar macht
Backup-Frische Prometheus-Textfile-Collector oder dienstspezifisches Signal nur weil ein Host lebt, heißt das nicht, dass die letzte Sicherung erfolgreich war

Der node_exporter-README beschreibt den Textfile Collector explizit für Batch-Jobs und statische, maschinengebundene Metriken. Genau das ist im Homelab ein sauberer Weg, um etwa den letzten erfolgreichen Backup-Zeitpunkt oder die letzte erfolgreiche Replikation als Metrik zu veröffentlichen. Gleichzeitig sagt derselbe README klar: Für service-level metrics sollte stattdessen der Pushgateway genutzt werden.

Das ist ein sehr konkreter Betriebshebel: Nicht nur "Backups überwachen", sondern das Alter der letzten erfolgreichen Sicherung maschinenlesbar machen.

Prometheus selbst ergänzt dafür eine wichtige Alerting-Regel: Bei Batch-Jobs sollte alarmiert werden, wenn der Job nicht kürzlich genug erfolgreich war, und der Schwellenwert sollte mindestens Zeit für zwei volle Durchläufe lassen. Für nächtliche Backups ist das deutlich belastbarer als ein Alarm direkt wenige Minuten nach der geplanten Startzeit. So reduzierst du Fehlalarme und behältst trotzdem Restore-Risiken sauber im Blick.

Prometheus erkennt Zustände, Alertmanager macht daraus betriebstaugliche Signale

Prometheus-Alerting-Rules können mit einem for-Zeitraum verhindern, dass aus kurzen Ausschlägen sofort echte Firing-Alerts werden. In aktuellen Prometheus-Versionen kommt mit keep_firing_for zusätzlich ein Mittel dazu, um Flapping und falsche Entwarnung durch kurzzeitige Datenlücken abzufangen. Der Alertmanager übernimmt danach die entscheidende zweite Stufe: Deduplication, Grouping, Routing, Silencing und Inhibition.

Problem ohne Alarmhygiene Was Alertmanager offiziell dafür bietet
zehn Hosts fallen wegen desselben Netzproblems aus Grouping ähnlicher Alerts in eine Benachrichtigung
derselbe Alarm wird ständig erneut verschickt Deduplication und Routing-Logik
bekannte Wartung erzeugt Lärm Silences und Zeitsteuerung
Folgealarme überdecken die eigentliche Ursache Inhibition bei Abhängigkeiten

Grafana Alerting ist sinnvoll, wenn du zusätzlich auf Daten aus mehreren Datenquellen oder Logs alerten willst. Für kleine Homelabs ist die nüchterne Regel daher: Prometheus-Regeln für Kernmetriken, Grafana für Korrelation und komfortable Visualisierung, Alertmanager für echte Alarmdisziplin.

Abhängigkeiten modellieren, sonst erzeugt ein Netzproblem zehn Folgealarme

Alertmanager-Konfiguration dokumentiert nicht nur Receiver, sondern auch Routing, Grouping, group_wait und Inhibition. Genau diese Mechanik ist im Homelab der Hebel gegen Alarm-Lawinen. Die konkrete Matrix unten ist eine Inferenz aus den offiziellen Funktionen und den Prometheus-Empfehlungen, möglichst weit oben im Stack auf Symptome zu alarmieren.

Wahrscheinlicher Primärfehler Typische Folgealarme Sinnvolle Modellierung
Host oder Hypervisor faellt aus Container down, App down, Exporter unreachable Host- oder Dienst-Symptom priorisieren; containernahe Folgealarme durch Inhibition unterdruecken
Reverse Proxy oder Edge-Pfad gestört mehrere HTTP-Checks schlagen gleichzeitig fehl am Edge gruppieren und nicht jede einzelne App separat alarmieren
WAN-, DNS- oder Zertifikatsproblem HTTP, DNS und TLS-Monitore kippen fast gleichzeitig mit group_wait kurz sammeln, Ursache sauber gruppieren und erst dann benachrichtigen

Gerade für kleine Umgebungen ist das zentral: Ein echter Ausfall soll schnell melden, aber nur einmal. Alles andere macht dich langsamer. Deshalb sollten Reverse Proxy, USV und Monitoring-Regeln als gemeinsamer Abhängigkeitsbaum gedacht werden.

Dashboards sind Diagnosewerkzeug, aber nicht jede Zeitreihe gehört in einen Alarm

Grafana ist stark, weil es Metriken, Logs und mehrere Datenquellen zusammenzieht. Genau deshalb sollte ein Dashboard im Homelab vor allem Fehlersuche beschleunigen und nicht jede Kurve automatisch zu einer Alarmquelle machen.

Signaltyp Eher Dashboard Eher Alarm
langsame Lasttrends über Wochen ja meist nein, solange keine Betriebsgrenze verletzt wird
akuter Dienstausfall zur Diagnose ergänzend ja, mit klarer Zuständigkeit
Backup zu alt oder ausgefallen historisch nützlich ja, weil Restore-Fähigkeit betroffen ist
Zertifikat läuft bald ab übersichtlich darstellbar ja, wenn der Dienst extern relevant ist

Der Effekt ist direkt messbar: weniger Lärm, schnellere Ursachenfindung und deutlich geringere Gefahr, dass echte Probleme in hübschen, aber folgenlosen Panels untergehen.

Uptime-Checks beantworten eine andere Frage als Host-Metriken

Host-Metriken sagen dir, wie es einem System intern geht. Sie sagen dir nicht automatisch, ob ein Dienst von außen oder vom LAN-Client wirklich funktioniert. Genau deshalb bleibt ein separates Uptime-Signal sinnvoll.

Das offizielle Uptime-Kuma-README listet dafür nicht nur HTTP(s), sondern auch TCP, Ping, DNS Record, Push und Docker Containers. Zusätzlich nennt es Certificate info. Diese Kombination ist für Homelabs sehr stark, weil sie öffentliche und interne Sicht kombiniert:

  • HTTP(s)/TCP: funktioniert der Dienst wirklich?
  • DNS: zeigt die Zone noch auf das Richtige?
  • Certificate info: läuft ein Ablauf oder TLS-Problem an?
  • Push: hat ein geplanter Prozess aktiv Erfolg gemeldet?

Genau diese Signale ergänzen Prometheus sinnvoll, statt ihn zu ersetzen.

Die sinnvolle Reihenfolge: erst Lebenszeichen, dann Tiefe

  1. Stufe 1: Uptime-Checks für einen oder zwei wirklich wichtige Dienste.
  2. Stufe 2: Host-Metriken mit Prometheus und node_exporter.
  3. Stufe 3: SMART-Sicht und Dateisystem-/Storage-Alarmierung.
  4. Stufe 4: Backup-Frische über Textfile-Collector oder anderes belastbares Signal.
  5. Stufe 5: Reverse-Proxy-, TLS- und externe Endpunkt-Sicht.

Diese Reihenfolge ist robust, weil jede Stufe auf der vorherigen aufbaut. Sie verhindert den klassischen Fehler, zuerst Grafana vollzupflastern und erst später zu merken, dass eigentlich niemand den Backup-Ausfall oder das abgelaufene Zertifikat alarmiert.

Überwache auch das Monitoring selbst - sonst fehlt dir genau im Fehlerfall die Sicht

Prometheus nennt das Thema ausdrücklich Metamonitoring: Du solltest sicherstellen, dass Prometheus-Server, Alertmanager, PushGateway und andere Monitoring-Bausteine selbst verfügbar und funktionsfähig sind. Außerdem empfiehlt Prometheus, die Whitebox-Sicht der internen Komponenten mit einer externen Blackbox-Sicht zu ergänzen.

Ebene Was du pruefst Warum es unverzichtbar ist
interne Whitebox-Sicht laufen Prometheus, Alertmanager und Exporter selbst sauber? ohne sie merkst du Datenluecken oder kaputte Routen oft zu spaet
externe Blackbox-Sicht kommt ein Dienst von außerhalb wirklich an und werden Alerts zugestellt? sie deckt Fehler auf, die interne Komponenten nicht mehr selbst melden können
Ende-zu-Ende-Alarmweg kommt ein Testsignal von der Quelle bis zum Zielkanal? ein Dashboard ohne funktionierende Notification-Kette ist nur Beobachtung, kein Betrieb

Das ist einer der wenigen Monitoring-Punkte, bei denen Redundanz wirklich wörtlich gemeint ist: interne Telemetrie plus externer Blick plus getesteter Benachrichtigungspfad. Erst dann kannst du darauf vertrauen, dass ein stiller Monitoring-Ausfall nicht selbst zum blinden Fleck wird.

Schwellwerte erst aus dem echten Stack ableiten, nicht aus Bauchgefühl

Viele Homelabs bauen erst Alarme und versuchen erst später zu verstehen, welche Hosts, Geräte und Strompfade überhaupt kritisch sind. Der sauberere Weg ist umgekehrt: erst das Inventar und die 24/7-Rollen sauber erfassen, dann daraus Alarme ableiten.

Prüffeld Hilfreicher Arbeitsweg Was du daraus für Monitoring ableitest
Welche Hosts und Nebenlasten wirklich 24/7 laufen Homelab-Rechner welche Systeme überhaupt einen dauerhaften Host-, Uptime- oder Temperatur-Alarm verdienen
Welche Dauerläufer wirtschaftlich oder thermisch besonders kritisch sind Stromkosten-Rechner plus Strom sparen am Heimserver ob Energie-, Lüfter- oder Lastsignale nur interessante Kurven oder echte Betriebsrisiken sind
Wie viel Shutdown- und Pufferzeit im Strompfad existiert USV-Rechner plus USV fürs Homelab wie schnell Strom-, NUT- oder Host-Down-Alarme eskalieren müssen, bevor Datenverlust droht
Wie alt ein Backup maximal sein darf Backup-Strategie 3-2-1 plus reale Job-Laufzeiten eine Frischegrenze, die zu deinem RPO passt und nicht nur irgendeine Uhrzeit abbildet

Einordnung: Diese Schwellwertlogik ist eine Betriebsinferenz aus den offiziellen Prometheus- und Alertmanager-Prinzipien. Sie hilft vor allem dabei, Alarmierung an Rolle, Kritikalität und Wiederanlaufzeit zu koppeln statt an zufällige Standardwerte.

Ein monatliches Monitoring-Review senkt mehr Risiko als zehn neue Panels

Monitoring wird im Homelab oft als Einmalprojekt behandelt. Tatsaechlich aendert sich die Umgebung staendig: neue Dienste, andere Last, neue USV-Annahmen, andere Backup-Fenster. Genau deshalb braucht selbst ein kleiner Stack ein kurzes periodisches Betriebsreview.

Reviewpunkt Was du pruefst Warum dieser Punkt nicht automatisch stabil bleibt
Alarmnutzwert welche Alerts in den letzten Wochen wirklich zu Handlungen fuehrten und welche nur Laerm waren ohne Review wachsen Regeln schneller als ihre betriebliche Relevanz
Backup-Frische und Restore-Sicht ob die aktuelle Frischegrenze noch zu deinem RPO und den realen Joblaufzeiten passt Backup-Fenster, Datenmengen und Off-Site-Wege aendern sich oft schleichend
Strom- und Shutdown-Eskalation ob Host-Down-, NUT- oder Stromalarme noch zur realen USV-Reserve passen neue Last oder veraenderte Schutzkreise machen alte Eskalationszeiten schnell falsch
Edge- und Erreichbarkeitssicht ob Uptime-, DNS-, TLS- und Reverse-Proxy-Signale noch den sichtbaren Dienstpfad richtig abbilden gerade Ingress-Pfade aendern sich schneller als Dashboards

Der Vorteil dieses Reviews ist simpel: Du haeltst Monitoring nah an der realen Betriebsumgebung. Genau dadurch bleibt dein Stack klein genug, um ernst genommen zu werden, und tief genug, um im Incident wirklich zu helfen.

Fazit: Monitoring ist dann gut, wenn du Fehler schneller eingrenzt als du sie entdeckst

Ein gutes Homelab-Monitoring besteht nicht aus möglichst vielen Panels, sondern aus klar getrennten Signalen für Verfügbarkeit, Host-Zustand, Mediengesundheit und Backup-Frische. Prometheus, node_exporter, Alertmanager, Grafana, smartctl und ein leichtes Uptime-Signal decken genau diese Ebenen sauber ab.

Wenn aus jedem Alarm ein erster Handlungsschritt folgt, wird Monitoring aus buntem Selbstzweck zu echter Betriebshilfe.

Häufig gestellte Fragen

Wie viel Ressourcen braucht Monitoring im Homelab?

Das hängt von Aufbewahrungsdauer, Zielanzahl, Scrape-Intervallen, Zusatz-Collectoren und Dashboards ab. Seriöser als pauschale RAM-Zahlen ist, den Monitoring-Stack selbst mitzumessen und klein zu starten.

Kann ich mehrere Server mit einem einzigen Prometheus überwachen?

Ja. Genau dafür sind Scrape-Jobs, statische Targets und Discovery-Mechanismen vorgesehen. Wichtig ist nur, dass deine Alarmregeln zur tatsächlichen Kritikalität der jeweiligen Hosts passen.

Brauche ich zusätzlich Uptime-Monitoring?

Oft ja. Hostmetriken beantworten nicht automatisch, ob ein Dienst von außen oder vom LAN-Client wirklich erreichbar ist. Ein separates Uptime-Signal ergänzt Prometheus deshalb sinnvoll.

Wie überwache ich Backups am besten?

Nicht nur indirekt über Hostzustand. Der belastbarere Weg ist, den Zeitpunkt des letzten erfolgreichen Backups oder einen expliziten Erfolgspfad als Metrik oder Push-Signal sichtbar zu machen.

Wie setze ich die Schwelle für Backup-Frische sinnvoll?

Prometheus empfiehlt für Batch-Jobs, nicht auf die erste verpasste Minute zu alarmieren, sondern einen Schwellenwert zu wählen, der mindestens Zeit für zwei volle Durchläufe lässt. Für nächtliche Backups ist eine sauber abgeleitete Frischegrenze deshalb belastbarer als ein starres 'direkt nach Startzeit'-Alarmmuster.

Soll ich Grafana oder Prometheus für Alerts priorisieren?

Für Kernmetriken meist Prometheus plus Alertmanager. Grafana ist besonders wertvoll, wenn du mehrere Datenquellen oder Logs gemeinsam korrelieren willst. Die sauberste Trennung lautet deshalb oft: Prometheus erkennt, Alertmanager ordnet, Grafana erklärt.

Soll ich gleich alle node_exporter-Collector einschalten?

Nein. Das offizielle README rät zur Vorsicht bei deaktivierten Collectoren. Sinnvoll ist, sie einzeln zu aktivieren und Scrape-Dauer sowie Kardinalität danach bewusst zu beobachten.

Was ist Metamonitoring konkret?

Damit ist gemeint, dass du auch Prometheus, Alertmanager, Exporter und den Benachrichtigungspfad selbst überwachst. Prometheus empfiehlt zusätzlich eine externe Blackbox-Sicht, weil interne Whitebox-Metriken genau dann ausfallen können, wenn du sie am dringendsten brauchst.

Welche Schwellwerte sollten im Homelab nie einfach aus Vorlagen übernommen werden?

Vor allem Backup-Frische, Strom- und Temperaturgrenzen sowie Eskalationszeiten bei Stromausfall. Diese Schwellen hängen direkt an deinem echten Stack, deiner USV-Reserve und deiner Restore-Logik. Ohne diese Betriebsdaten sind Template-Werte schnell nur dekorativ.

Wann ist ein Monitoring-Stack eigentlich reif genug fuer einen neuen Dienst?

Wenn fuer den neuen Dienst nicht nur ein Panel existiert, sondern auch ein Besitzer, ein Uptime- oder Symptom-Signal, eine sinnvolle Eskalation und ein klarer erster Handlungsschritt. Ohne diese vier Punkte wird aus Monitoring meist nur weitere Sicht ohne bessere Reaktion.

Verwandte Tabellen

THEMENHUBS

Themenhubs für den nächsten Schritt

Diese Spezialseiten verbinden Einzelartikel, Tabellen und Rechner zu einer konsistenten Entscheidungslogik. Wenn du vom isolierten Problem zur belastbaren Systementscheidung weitergehen willst, starte hier.

Quellen & Primärdaten

  1. Prometheus Configuration - Im Audit am 4. April 2026 erneut verifiziert: Konfigurationsdatei definiert Scrape-Jobs, Targets, Rule-Files und Reload-Verhalten.
  2. Prometheus Alerting Rules - Offizielle Referenz für Alerting-Rules, den `for`-Zeitraum, `keep_firing_for` und die Trennung zwischen Regelerkennung und Benachrichtigung.
  3. Prometheus - Alerting Best Practices - Im Audit am 4. April 2026 erneut verifiziert: Symptome statt Ursachen alerten, Alertzahl niedrig halten, Batch-Job-Schwellen an zwei vollen Läufen ausrichten und Metamonitoring explizit absichern.
  4. Alertmanager - Im Audit am 4. April 2026 erneut verifiziert: Deduplication, Grouping, Routing, Silencing und Inhibition als Kernfunktionen der Alarmhygiene.
  5. node_exporter - Im Audit am 4. April 2026 erneut verifiziert: Standard-Port 9100, Containerhinweise für Host-Monitoring, Textfile Collector und Vorsicht bei disabled-by-default Collectors.
  6. Grafana Alerting - Im Audit am 4. April 2026 erneut verifiziert: Alerting auf Metriken und Logs aus mehreren Datenquellen.
  7. Uptime Kuma - Im Audit am 4. April 2026 erneut verifiziert: HTTP(s), TCP, Ping, DNS, Push, Docker-Container und Zertifikatsinformationen als offizielle Feature-Anker.
  8. smartmontools - Im Audit am 4. April 2026 erneut verifiziert: smartctl und smartd überwachen ATA-, SCSI- und NVMe-Speicher über SMART.