Triage eines CloudWatch Alarms durch Korrelation von Logs, Metriken und kürzlichen Deployments
Wann einsetzen: Ein Alarm wurde gerade ausgelöst und Sie möchten von 'welcher Service, welches Deployment, welche Log-Zeile' wissen, ohne durch die Konsole zu navigieren.
Voraussetzungen
- AWS Anmeldedaten mit CloudWatch + CloudFormation Lesezugriff —
aws sso loginmit einer Rolle, die die ReadOnlyAccess Richtlinie hat - aws-cloudwatch-mcp Server läuft —
uvx awslabs.cloudwatch-mcp-server— oder installieren Sie das Bundle
Ablauf
-
Rufen Sie die Alarmdetails und betroffenen Ressourcen abBeschreiben Sie CloudWatch Alarm 'prod-api-5xx-high'. Welche Ressource beobachtet er, welcher Schwellwert, was ist der aktuelle Zustand?✓ Kopiert→ Alarm-Konfiguration plus Zustandsverlauf (wann er sich umgeschaltet hat)
-
Fragen Sie Logs rund um den Verstoß abFühren Sie eine Logs Insights Abfrage über die Log-Gruppe /aws/ecs/prod-api von 10 Minuten vor dem Alarm bis jetzt aus. Finden Sie ERROR-Level Log-Zeilen gruppiert nach Nachrichtenvorlage.✓ Kopiert→ Top-Fehlervorlagen mit Zählen
-
Korrelieren Sie mit kürzlichen DeploymentsListen Sie CodeDeploy Deployments zum Service prod-api in den letzten 6 Stunden auf. Korreliert die Deployment-Zeit mit dem Fehler-Spike?✓ Kopiert→ Deployment-Zeitleiste abgestimmt auf den Fehleranfang
Ergebnis: Eine konkrete Hypothese wie 'Deployment abc123 um 14:22 UTC korreliert mit 5xx Anfang um 14:23' mit Belegen dafür.
Fallstricke
- Logs Insights Abfragen gegen eine große Log-Gruppe ohne Zeitfenster kosten echtes Geld — Inkludieren Sie immer
@timestampGrenzen enger als 1 Stunde; der MCP stoppt Sie nicht vor dem Abrechnen von $$$ - Cross-Account Ressourcen benötigen das richtige Credential-Profil — Setzen Sie
AWS_PROFILEUmgebungsvariable pro Server-Aufruf; nehmen Sie nicht an, dass das Standard-Profil das ist, das Sie wollen