透過關聯日誌、指標與近期部署,對 CloudWatch 警報進行分流處理
何時使用: 警報剛觸發,你想在不切換主控台分頁的情況下,快速釐清「哪個服務、哪次部署、哪行日誌」。
前置條件
- 具備 CloudWatch + CloudFormation 讀取權限的 AWS 憑證 —
aws sso login搭配擁有 ReadOnlyAccess 受管政策的角色 - aws-cloudwatch-mcp 伺服器已執行 —
uvx awslabs.cloudwatch-mcp-server— 或安裝套件組合
步驟
-
取得警報詳情與受影響資源描述 CloudWatch 警報 'prod-api-5xx-high'。它監控哪個資源、閾值為何、目前狀態為何?✓ 已複製→ 警報設定加上狀態歷史(何時觸發)
-
查詢警報觸發前後的日誌針對 /aws/ecs/prod-api 日誌群組,執行 Logs Insights 查詢,時間範圍為警報觸發前 10 分鐘至現在。找出 ERROR 等級的日誌並依訊息樣板分組。✓ 已複製→ 各錯誤樣板及其出現次數
-
與近期部署進行關聯列出過去 6 小時內部署至 prod-api 服務的 CodeDeploy 部署記錄。是否有任何部署時間與錯誤飆升相關?✓ 已複製→ 部署時間軸與錯誤發生時間的對照
結果: 得出具體假設,例如「UTC 14:22 的部署 abc123 與 14:23 的 5xx 開始時間相關」,並附上佐證資料。
注意事項
- 對大型日誌群組執行 Logs Insights 查詢時,若未設定時間範圍,將產生可觀費用 — 務必加入
@timestamp界限,且範圍不超過 1 小時;MCP 不會阻止你產生高額帳單 - 跨帳號資源需要正確的憑證設定檔 — 在每次伺服器呼叫時設定
AWS_PROFILE環境變數;不要假設預設設定檔就是你要的那個