
Homelab-Monitoring: Verfügbarkeit, SMART und Backup-Frische sauber überwachen
Gutes Homelab-Monitoring ist mehr als ein Dashboard. Dieser Leitfaden verbindet Prometheus, node_exporter, Alertmanager, Grafana, SMART und Uptime-Checks entlang offizieller Dokumentation zu einem belastbaren Betriebsmodell.
Diese Seite macht Rechenannahmen, Quellenlage und Aktualität transparent. Für Methodik, Korrekturen und unseren Umgang mit Automatisierung siehe Redaktionsgrundsätze.
Monitoring ist erst dann sinnvoll, wenn daraus ein Runbook folgt
Viele Homelabs bauen zuerst Dashboards und hoffen, dass daraus später Betrieb entsteht. Professionell ist die Reihenfolge genau andersherum: erst die Betriebsfragen, dann die Metriken, dann die Visualisierung.
| Betriebsfrage | Typisches Signal | Mögliche erste Handlung |
|---|---|---|
| Ist der Dienst von außen oder im LAN erreichbar? | Uptime-/HTTP-/TCP-Signal | DNS, Reverse Proxy, Containerstatus oder Host prüfen |
| Ist der Host gesund? | CPU, RAM, Dateisystem, Netz, Sensoren | Lastursache eingrenzen, Storage oder Kühlung prüfen |
| Bleiben Medien und Backups gesund? | SMART, Backup-Alter, letzter erfolgreicher Lauf | Datenträger, Sicherungspfad oder Zeitplan prüfen |
| Ist ein Alarm nur laut oder wirklich relevant? | Gruppierung, Schweregrad, Dauer, Abhängigkeit | silencen, gruppieren oder Runbook schärfen |
Wenn ein Alarm keine definierte erste Handlung auslöst, ist er oft noch kein gutes Monitoring-Signal. Genau deshalb gehört Monitoring direkt zu Backup-Strategie 3-2-1, Reverse Proxy und Server-Kühlung.
Jeder Alarm braucht Besitzer, Kanal und klare Schließbedingung
Prometheus-Regeln und Alertmanager-Funktionen sind erst die technische Hälfte. Die betriebliche Hälfte ist, dass jeder Alarm vorab beantwortet: Wem gehört er?, wie kommt er an? und wann gilt er wieder als erledigt?
| Alarmklasse | Typisches Signal | Eigentümer im Homelab | Schließbedingung |
|---|---|---|---|
| Erreichbarkeit | HTTP-, TCP-, Ping- oder DNS-Ausfall | der Betreiber des veröffentlichten Dienstes | Dienst ist wieder erreichbar und Ursache ist dokumentiert |
| Hostzustand | anhaltende Last, RAM-Druck, Dateisystemproblem | der Besitzer des Hosts oder Clusters | Wert normalisiert sich oder dauerhafte Kapazitätsmaßnahme ist umgesetzt |
| Storage | SMART-Hinweise, Medienfehler, Replikationsproblem | der Betreiber des Speicherpfads | Medium geprüft, ersetzt oder Fehlerquelle isoliert |
| Backup-Frische | letzte erfolgreiche Sicherung ist zu alt | der Verantwortliche für Restore-Fähigkeit | neuer erfolgreicher Lauf plus Plausibilitätscheck liegt vor |
Einordnung: Diese Alarmklassen sind keine Prometheus-Vorgabe. Sie sind ein belastbares Homelab-Schema, damit aus Regeln und Benachrichtigungen ein echter Betriebsprozess wird.
Symptome alarmieren, Ursachen auf Dashboards und Runbooks auflösen
Die Prometheus-Best-Practice für Alerting ist ungewöhnlich klar: Alerting einfach halten, auf Symptome alerten, gute Konsolen für die Ursachenanalyse bauen und keine Pages erzeugen, bei denen es nichts zu tun gibt. Zusätzlich empfiehlt Prometheus, so wenige Alerts wie möglich zu haben und bei Online-Systemen möglichst weit oben im Stack auf Latenz und Fehler zu alarmieren.
| Symptomorientierter Alarm | Was er offen lässt | Warum das trotzdem besser ist |
|---|---|---|
| externer HTTP-Endpunkt wird langsam oder fehlerhaft | ob Proxy, App, Datenbank oder DNS die Ursache ist | du alarmierst einmal auf den sichtbaren Nutzerschaden und suchst die Ursache danach im Stack |
| Backup-Job war nicht kürzlich genug erfolgreich | ob Zielpfad, Credentials oder Speicher voll sind | die Restore-Faehigkeit ist konkret gefaehrdet und braucht Handeln |
| Kapazität nähert sich der Grenze | welcher einzelne Prozess gerade am meisten schreibt | Kapazitätsengpässe erfordern oft vor dem Ausfall menschliches Eingreifen |
Der operative Gewinn ist groß: Statt gleichzeitig auf Reverse Proxy, App, Host und Container zu paginieren, alarmierst du auf das relevante sichtbare Symptom und nutzt Grafana, Prometheus oder Logs für die Zerlegung. Genau so vermeidest du Alarm-Sturm ohne Blindheit.
Ein kleiner, sauberer Kernstack reicht für die meisten Homelabs
Prometheus definiert in seiner Konfiguration klar, wie Ziele über scrape_configs, static_configs oder Discovery eingesammelt werden und welche rule_files geladen werden. Für viele Homelabs reicht deshalb ein überraschend kleiner Kern:
| Baustein | Offiziell belegbarer Anker | Rolle |
|---|---|---|
| Prometheus | Konfigurationsdatei definiert Scrape-Jobs, Targets und Rule-Files | zentrale Metrikablage und Regel-Engine |
| node_exporter | liefert Hostmetriken und lauscht standardmäßig auf :9100 |
CPU, RAM, Dateisystem, Netz, Hardware-/OS-Sicht |
| Alertmanager | dedupliziert, gruppiert, routet, silenced und inhibiert Alerts | Alarmhygiene statt Nachrichtenflut |
| Grafana | alertet auf Metriken oder Logs aus mehreren Datenquellen | Visualisierung, Korrelation, Benachrichtigung |
| Uptime Kuma | unterstützt laut offiziellem README u. a. HTTP(s), TCP, Ping, DNS, Push und Docker-Container | Erreichbarkeit und externer Blick auf Dienste |
| smartctl / smartmontools | kontrolliert und überwacht ATA-, SCSI- und NVMe-Speicher mit SMART | Medienzustand und Fehlerfrüherkennung |
Damit beantwortest du bereits die wichtigsten Fragen: lebt der Dienst, lebt der Host, lebt das Storage und kommt der Alarm in einer Form an, die du auch ernst nehmen kannst.
Host-Metriken: node_exporter ist stark, aber nur wenn er wirklich den Host sieht
Der offizielle node_exporter-README ist für Homelabs besonders nützlich, weil er eine oft übersehene Grenze klar benennt: Der Exporter ist dazu gedacht, den Host zu überwachen. Wenn du ihn containerisiert betreibst, braucht er dafür zusätzliche Sorgfalt.
| Aspekt | Offizieller Hinweis | Praxisfolge |
|---|---|---|
| Standard-Port | lauscht standardmäßig auf 9100 |
einfacher Zielanker für Prometheus-Jobs |
| Containerbetrieb | host monitoring in Containern erfordert zusätzliche Flags | ohne --path.rootfs, Host-Netz und Host-PID siehst du schnell den Container statt den Host |
| Zusatz-Collector | manche Collector sind absichtlich disabled by default | erst gezielt aktivieren und scrape_duration_seconds sowie Kardinalität beobachten |
Der gleiche README nennt sogar die richtige Vorsicht beim Aktivieren zusätzlicher Collector: einen nach dem anderen testen und die Auswirkungen auf Dauer und Samples beobachten. Genau das ist der Unterschied zwischen Monitoring und bloßem Metriksammeln.
Storage-Gesundheit und Backup-Frische sind zwei eigene Beobachtungsschichten
SMART ist nicht dasselbe wie Dateisystembelegung, und ein erfolgreicher Host-Scrape bedeutet noch lange nicht, dass dein Backup frisch ist. Für Homelabs sind deshalb mindestens zwei Zusatzschichten sinnvoll:
| Schicht | Werkzeug | Warum sie separat ist |
|---|---|---|
| Mediengesundheit | smartctl / smartd | SMART erkennt Fehlerpfade auf Datenträgern, die keine CPU- oder RAM-Kurve sichtbar macht |
| Backup-Frische | Prometheus-Textfile-Collector oder dienstspezifisches Signal | nur weil ein Host lebt, heißt das nicht, dass die letzte Sicherung erfolgreich war |
Der node_exporter-README beschreibt den Textfile Collector explizit für Batch-Jobs und statische, maschinengebundene Metriken. Genau das ist im Homelab ein sauberer Weg, um etwa den letzten erfolgreichen Backup-Zeitpunkt oder die letzte erfolgreiche Replikation als Metrik zu veröffentlichen. Gleichzeitig sagt derselbe README klar: Für service-level metrics sollte stattdessen der Pushgateway genutzt werden.
Das ist ein sehr konkreter Betriebshebel: Nicht nur "Backups überwachen", sondern das Alter der letzten erfolgreichen Sicherung maschinenlesbar machen.
Prometheus selbst ergänzt dafür eine wichtige Alerting-Regel: Bei Batch-Jobs sollte alarmiert werden, wenn der Job nicht kürzlich genug erfolgreich war, und der Schwellenwert sollte mindestens Zeit für zwei volle Durchläufe lassen. Für nächtliche Backups ist das deutlich belastbarer als ein Alarm direkt wenige Minuten nach der geplanten Startzeit. So reduzierst du Fehlalarme und behältst trotzdem Restore-Risiken sauber im Blick.
Prometheus erkennt Zustände, Alertmanager macht daraus betriebstaugliche Signale
Prometheus-Alerting-Rules können mit einem for-Zeitraum verhindern, dass aus kurzen Ausschlägen sofort echte Firing-Alerts werden. In aktuellen Prometheus-Versionen kommt mit keep_firing_for zusätzlich ein Mittel dazu, um Flapping und falsche Entwarnung durch kurzzeitige Datenlücken abzufangen. Der Alertmanager übernimmt danach die entscheidende zweite Stufe: Deduplication, Grouping, Routing, Silencing und Inhibition.
| Problem ohne Alarmhygiene | Was Alertmanager offiziell dafür bietet |
|---|---|
| zehn Hosts fallen wegen desselben Netzproblems aus | Grouping ähnlicher Alerts in eine Benachrichtigung |
| derselbe Alarm wird ständig erneut verschickt | Deduplication und Routing-Logik |
| bekannte Wartung erzeugt Lärm | Silences und Zeitsteuerung |
| Folgealarme überdecken die eigentliche Ursache | Inhibition bei Abhängigkeiten |
Grafana Alerting ist sinnvoll, wenn du zusätzlich auf Daten aus mehreren Datenquellen oder Logs alerten willst. Für kleine Homelabs ist die nüchterne Regel daher: Prometheus-Regeln für Kernmetriken, Grafana für Korrelation und komfortable Visualisierung, Alertmanager für echte Alarmdisziplin.
Abhängigkeiten modellieren, sonst erzeugt ein Netzproblem zehn Folgealarme
Alertmanager-Konfiguration dokumentiert nicht nur Receiver, sondern auch Routing, Grouping, group_wait und Inhibition. Genau diese Mechanik ist im Homelab der Hebel gegen Alarm-Lawinen. Die konkrete Matrix unten ist eine Inferenz aus den offiziellen Funktionen und den Prometheus-Empfehlungen, möglichst weit oben im Stack auf Symptome zu alarmieren.
| Wahrscheinlicher Primärfehler | Typische Folgealarme | Sinnvolle Modellierung |
|---|---|---|
| Host oder Hypervisor faellt aus | Container down, App down, Exporter unreachable | Host- oder Dienst-Symptom priorisieren; containernahe Folgealarme durch Inhibition unterdruecken |
| Reverse Proxy oder Edge-Pfad gestört | mehrere HTTP-Checks schlagen gleichzeitig fehl | am Edge gruppieren und nicht jede einzelne App separat alarmieren |
| WAN-, DNS- oder Zertifikatsproblem | HTTP, DNS und TLS-Monitore kippen fast gleichzeitig | mit group_wait kurz sammeln, Ursache sauber gruppieren und erst dann benachrichtigen |
Gerade für kleine Umgebungen ist das zentral: Ein echter Ausfall soll schnell melden, aber nur einmal. Alles andere macht dich langsamer. Deshalb sollten Reverse Proxy, USV und Monitoring-Regeln als gemeinsamer Abhängigkeitsbaum gedacht werden.
Dashboards sind Diagnosewerkzeug, aber nicht jede Zeitreihe gehört in einen Alarm
Grafana ist stark, weil es Metriken, Logs und mehrere Datenquellen zusammenzieht. Genau deshalb sollte ein Dashboard im Homelab vor allem Fehlersuche beschleunigen und nicht jede Kurve automatisch zu einer Alarmquelle machen.
| Signaltyp | Eher Dashboard | Eher Alarm |
|---|---|---|
| langsame Lasttrends über Wochen | ja | meist nein, solange keine Betriebsgrenze verletzt wird |
| akuter Dienstausfall | zur Diagnose ergänzend | ja, mit klarer Zuständigkeit |
| Backup zu alt oder ausgefallen | historisch nützlich | ja, weil Restore-Fähigkeit betroffen ist |
| Zertifikat läuft bald ab | übersichtlich darstellbar | ja, wenn der Dienst extern relevant ist |
Der Effekt ist direkt messbar: weniger Lärm, schnellere Ursachenfindung und deutlich geringere Gefahr, dass echte Probleme in hübschen, aber folgenlosen Panels untergehen.
Uptime-Checks beantworten eine andere Frage als Host-Metriken
Host-Metriken sagen dir, wie es einem System intern geht. Sie sagen dir nicht automatisch, ob ein Dienst von außen oder vom LAN-Client wirklich funktioniert. Genau deshalb bleibt ein separates Uptime-Signal sinnvoll.
Das offizielle Uptime-Kuma-README listet dafür nicht nur HTTP(s), sondern auch TCP, Ping, DNS Record, Push und Docker Containers. Zusätzlich nennt es Certificate info. Diese Kombination ist für Homelabs sehr stark, weil sie öffentliche und interne Sicht kombiniert:
- HTTP(s)/TCP: funktioniert der Dienst wirklich?
- DNS: zeigt die Zone noch auf das Richtige?
- Certificate info: läuft ein Ablauf oder TLS-Problem an?
- Push: hat ein geplanter Prozess aktiv Erfolg gemeldet?
Genau diese Signale ergänzen Prometheus sinnvoll, statt ihn zu ersetzen.
Die sinnvolle Reihenfolge: erst Lebenszeichen, dann Tiefe
- Stufe 1: Uptime-Checks für einen oder zwei wirklich wichtige Dienste.
- Stufe 2: Host-Metriken mit Prometheus und node_exporter.
- Stufe 3: SMART-Sicht und Dateisystem-/Storage-Alarmierung.
- Stufe 4: Backup-Frische über Textfile-Collector oder anderes belastbares Signal.
- Stufe 5: Reverse-Proxy-, TLS- und externe Endpunkt-Sicht.
Diese Reihenfolge ist robust, weil jede Stufe auf der vorherigen aufbaut. Sie verhindert den klassischen Fehler, zuerst Grafana vollzupflastern und erst später zu merken, dass eigentlich niemand den Backup-Ausfall oder das abgelaufene Zertifikat alarmiert.
Überwache auch das Monitoring selbst - sonst fehlt dir genau im Fehlerfall die Sicht
Prometheus nennt das Thema ausdrücklich Metamonitoring: Du solltest sicherstellen, dass Prometheus-Server, Alertmanager, PushGateway und andere Monitoring-Bausteine selbst verfügbar und funktionsfähig sind. Außerdem empfiehlt Prometheus, die Whitebox-Sicht der internen Komponenten mit einer externen Blackbox-Sicht zu ergänzen.
| Ebene | Was du pruefst | Warum es unverzichtbar ist |
|---|---|---|
| interne Whitebox-Sicht | laufen Prometheus, Alertmanager und Exporter selbst sauber? | ohne sie merkst du Datenluecken oder kaputte Routen oft zu spaet |
| externe Blackbox-Sicht | kommt ein Dienst von außerhalb wirklich an und werden Alerts zugestellt? | sie deckt Fehler auf, die interne Komponenten nicht mehr selbst melden können |
| Ende-zu-Ende-Alarmweg | kommt ein Testsignal von der Quelle bis zum Zielkanal? | ein Dashboard ohne funktionierende Notification-Kette ist nur Beobachtung, kein Betrieb |
Das ist einer der wenigen Monitoring-Punkte, bei denen Redundanz wirklich wörtlich gemeint ist: interne Telemetrie plus externer Blick plus getesteter Benachrichtigungspfad. Erst dann kannst du darauf vertrauen, dass ein stiller Monitoring-Ausfall nicht selbst zum blinden Fleck wird.
Schwellwerte erst aus dem echten Stack ableiten, nicht aus Bauchgefühl
Viele Homelabs bauen erst Alarme und versuchen erst später zu verstehen, welche Hosts, Geräte und Strompfade überhaupt kritisch sind. Der sauberere Weg ist umgekehrt: erst das Inventar und die 24/7-Rollen sauber erfassen, dann daraus Alarme ableiten.
| Prüffeld | Hilfreicher Arbeitsweg | Was du daraus für Monitoring ableitest |
|---|---|---|
| Welche Hosts und Nebenlasten wirklich 24/7 laufen | Homelab-Rechner | welche Systeme überhaupt einen dauerhaften Host-, Uptime- oder Temperatur-Alarm verdienen |
| Welche Dauerläufer wirtschaftlich oder thermisch besonders kritisch sind | Stromkosten-Rechner plus Strom sparen am Heimserver | ob Energie-, Lüfter- oder Lastsignale nur interessante Kurven oder echte Betriebsrisiken sind |
| Wie viel Shutdown- und Pufferzeit im Strompfad existiert | USV-Rechner plus USV fürs Homelab | wie schnell Strom-, NUT- oder Host-Down-Alarme eskalieren müssen, bevor Datenverlust droht |
| Wie alt ein Backup maximal sein darf | Backup-Strategie 3-2-1 plus reale Job-Laufzeiten | eine Frischegrenze, die zu deinem RPO passt und nicht nur irgendeine Uhrzeit abbildet |
Einordnung: Diese Schwellwertlogik ist eine Betriebsinferenz aus den offiziellen Prometheus- und Alertmanager-Prinzipien. Sie hilft vor allem dabei, Alarmierung an Rolle, Kritikalität und Wiederanlaufzeit zu koppeln statt an zufällige Standardwerte.
Ein monatliches Monitoring-Review senkt mehr Risiko als zehn neue Panels
Monitoring wird im Homelab oft als Einmalprojekt behandelt. Tatsaechlich aendert sich die Umgebung staendig: neue Dienste, andere Last, neue USV-Annahmen, andere Backup-Fenster. Genau deshalb braucht selbst ein kleiner Stack ein kurzes periodisches Betriebsreview.
| Reviewpunkt | Was du pruefst | Warum dieser Punkt nicht automatisch stabil bleibt |
|---|---|---|
| Alarmnutzwert | welche Alerts in den letzten Wochen wirklich zu Handlungen fuehrten und welche nur Laerm waren | ohne Review wachsen Regeln schneller als ihre betriebliche Relevanz |
| Backup-Frische und Restore-Sicht | ob die aktuelle Frischegrenze noch zu deinem RPO und den realen Joblaufzeiten passt | Backup-Fenster, Datenmengen und Off-Site-Wege aendern sich oft schleichend |
| Strom- und Shutdown-Eskalation | ob Host-Down-, NUT- oder Stromalarme noch zur realen USV-Reserve passen | neue Last oder veraenderte Schutzkreise machen alte Eskalationszeiten schnell falsch |
| Edge- und Erreichbarkeitssicht | ob Uptime-, DNS-, TLS- und Reverse-Proxy-Signale noch den sichtbaren Dienstpfad richtig abbilden | gerade Ingress-Pfade aendern sich schneller als Dashboards |
Der Vorteil dieses Reviews ist simpel: Du haeltst Monitoring nah an der realen Betriebsumgebung. Genau dadurch bleibt dein Stack klein genug, um ernst genommen zu werden, und tief genug, um im Incident wirklich zu helfen.
Fazit: Monitoring ist dann gut, wenn du Fehler schneller eingrenzt als du sie entdeckst
Ein gutes Homelab-Monitoring besteht nicht aus möglichst vielen Panels, sondern aus klar getrennten Signalen für Verfügbarkeit, Host-Zustand, Mediengesundheit und Backup-Frische. Prometheus, node_exporter, Alertmanager, Grafana, smartctl und ein leichtes Uptime-Signal decken genau diese Ebenen sauber ab.
Wenn aus jedem Alarm ein erster Handlungsschritt folgt, wird Monitoring aus buntem Selbstzweck zu echter Betriebshilfe.
Häufig gestellte Fragen
Wie viel Ressourcen braucht Monitoring im Homelab?
Das hängt von Aufbewahrungsdauer, Zielanzahl, Scrape-Intervallen, Zusatz-Collectoren und Dashboards ab. Seriöser als pauschale RAM-Zahlen ist, den Monitoring-Stack selbst mitzumessen und klein zu starten.
Kann ich mehrere Server mit einem einzigen Prometheus überwachen?
Ja. Genau dafür sind Scrape-Jobs, statische Targets und Discovery-Mechanismen vorgesehen. Wichtig ist nur, dass deine Alarmregeln zur tatsächlichen Kritikalität der jeweiligen Hosts passen.
Brauche ich zusätzlich Uptime-Monitoring?
Oft ja. Hostmetriken beantworten nicht automatisch, ob ein Dienst von außen oder vom LAN-Client wirklich erreichbar ist. Ein separates Uptime-Signal ergänzt Prometheus deshalb sinnvoll.
Wie überwache ich Backups am besten?
Nicht nur indirekt über Hostzustand. Der belastbarere Weg ist, den Zeitpunkt des letzten erfolgreichen Backups oder einen expliziten Erfolgspfad als Metrik oder Push-Signal sichtbar zu machen.
Wie setze ich die Schwelle für Backup-Frische sinnvoll?
Prometheus empfiehlt für Batch-Jobs, nicht auf die erste verpasste Minute zu alarmieren, sondern einen Schwellenwert zu wählen, der mindestens Zeit für zwei volle Durchläufe lässt. Für nächtliche Backups ist eine sauber abgeleitete Frischegrenze deshalb belastbarer als ein starres 'direkt nach Startzeit'-Alarmmuster.
Soll ich Grafana oder Prometheus für Alerts priorisieren?
Für Kernmetriken meist Prometheus plus Alertmanager. Grafana ist besonders wertvoll, wenn du mehrere Datenquellen oder Logs gemeinsam korrelieren willst. Die sauberste Trennung lautet deshalb oft: Prometheus erkennt, Alertmanager ordnet, Grafana erklärt.
Soll ich gleich alle node_exporter-Collector einschalten?
Nein. Das offizielle README rät zur Vorsicht bei deaktivierten Collectoren. Sinnvoll ist, sie einzeln zu aktivieren und Scrape-Dauer sowie Kardinalität danach bewusst zu beobachten.
Was ist Metamonitoring konkret?
Damit ist gemeint, dass du auch Prometheus, Alertmanager, Exporter und den Benachrichtigungspfad selbst überwachst. Prometheus empfiehlt zusätzlich eine externe Blackbox-Sicht, weil interne Whitebox-Metriken genau dann ausfallen können, wenn du sie am dringendsten brauchst.
Welche Schwellwerte sollten im Homelab nie einfach aus Vorlagen übernommen werden?
Vor allem Backup-Frische, Strom- und Temperaturgrenzen sowie Eskalationszeiten bei Stromausfall. Diese Schwellen hängen direkt an deinem echten Stack, deiner USV-Reserve und deiner Restore-Logik. Ohne diese Betriebsdaten sind Template-Werte schnell nur dekorativ.
Wann ist ein Monitoring-Stack eigentlich reif genug fuer einen neuen Dienst?
Wenn fuer den neuen Dienst nicht nur ein Panel existiert, sondern auch ein Besitzer, ein Uptime- oder Symptom-Signal, eine sinnvolle Eskalation und ein klarer erster Handlungsschritt. Ohne diese vier Punkte wird aus Monitoring meist nur weitere Sicht ohne bessere Reaktion.
Verwandte Tabellen
Themenhubs für den nächsten Schritt
Diese Spezialseiten verbinden Einzelartikel, Tabellen und Rechner zu einer konsistenten Entscheidungslogik. Wenn du vom isolierten Problem zur belastbaren Systementscheidung weitergehen willst, starte hier.
Quellen & Primärdaten
- Prometheus Configuration - Im Audit am 4. April 2026 erneut verifiziert: Konfigurationsdatei definiert Scrape-Jobs, Targets, Rule-Files und Reload-Verhalten.
- Prometheus Alerting Rules - Offizielle Referenz für Alerting-Rules, den `for`-Zeitraum, `keep_firing_for` und die Trennung zwischen Regelerkennung und Benachrichtigung.
- Prometheus - Alerting Best Practices - Im Audit am 4. April 2026 erneut verifiziert: Symptome statt Ursachen alerten, Alertzahl niedrig halten, Batch-Job-Schwellen an zwei vollen Läufen ausrichten und Metamonitoring explizit absichern.
- Alertmanager - Im Audit am 4. April 2026 erneut verifiziert: Deduplication, Grouping, Routing, Silencing und Inhibition als Kernfunktionen der Alarmhygiene.
- node_exporter - Im Audit am 4. April 2026 erneut verifiziert: Standard-Port 9100, Containerhinweise für Host-Monitoring, Textfile Collector und Vorsicht bei disabled-by-default Collectors.
- Grafana Alerting - Im Audit am 4. April 2026 erneut verifiziert: Alerting auf Metriken und Logs aus mehreren Datenquellen.
- Uptime Kuma - Im Audit am 4. April 2026 erneut verifiziert: HTTP(s), TCP, Ping, DNS, Push, Docker-Container und Zertifikatsinformationen als offizielle Feature-Anker.
- smartmontools - Im Audit am 4. April 2026 erneut verifiziert: smartctl und smartd überwachen ATA-, SCSI- und NVMe-Speicher über SMART.