通过关联日志、指标和最近的部署来分类 CloudWatch 告警
何时使用: 告警刚刚触发,你想快速找出'是哪个服务、哪个部署、哪行日志',而不用在控制台中多个标签页切换。
前置条件
- 有 CloudWatch + CloudFormation 读权限的 AWS 凭据 — 使用具有 ReadOnlyAccess 托管策略的角色运行
aws sso login - aws-cloudwatch-mcp 服务器正在运行 —
uvx awslabs.cloudwatch-mcp-server— 或安装完整包
步骤
-
获取告警详情和受影响的资源描述 CloudWatch 告警 'prod-api-5xx-high'。它监视什么资源,阈值是什么,当前状态如何?✓ 已复制→ 告警配置加上状态历史(何时触发的)
-
查询违规周期内的日志对 /aws/ecs/prod-api 日志组运行 Logs Insights 查询,时间范围从告警触发前 10 分钟到现在。找出 ERROR 级别的日志行,按消息模板分组。✓ 已复制→ 按计数排名的顶级错误模板
-
与最近的部署关联列出过去 6 小时内对 prod-api 服务的 CodeDeploy 部署。是否有任何部署时间与错误激增时间相关联?✓ 已复制→ 部署时间线与错误开始的对齐
结果: 一个具体的假设,如'部署 abc123 在 14:22 UTC 与 5xx 错误在 14:23 的出现相关联',并有证据支持。
注意事项
- 针对大型日志组的 Logs Insights 查询如果没有时间窗口会花费真实的金钱 — 始终包含窄于 1 小时的
@timestamp边界;MCP 不会阻止你产生账单 - 跨账户资源需要正确的凭据配置文件 — 为每个服务器调用设置
AWS_PROFILEenv 变量;不要假设默认配置文件就是你想要的