Fazer triagem de um alarme CloudWatch correlacionando logs, métricas e deploys recentes
Quando usar: Um alarme acabou de disparar e você quer ir de 'qual serviço, qual deploy, qual linha de log' sem abrir abas no console.
Pré-requisitos
- Credenciais AWS com leitura de CloudWatch + CloudFormation —
aws sso logincom uma função que tenha a política gerenciada ReadOnlyAccess - Servidor aws-cloudwatch-mcp em execução —
uvx awslabs.cloudwatch-mcp-server— ou instale o pacote
Fluxo
-
Obtenha os detalhes do alarme e recursos afetadosDescreva o alarme CloudWatch 'prod-api-5xx-high'. Qual recurso ele monitora, qual é o limite, qual é o estado atual?✓ Copiado→ Configuração do alarme mais histórico de estado (quando mudou)
-
Consulte logs em torno da violaçãoExecute uma consulta Logs Insights sobre o grupo de logs /aws/ecs/prod-api de 10 minutos antes do alarme disparar até agora. Encontre linhas de log de nível ERROR agrupadas por template de mensagem.✓ Copiado→ Templates de erro principais com contagens
-
Correlacione com deploys recentesListe os deploys CodeDeploy para o serviço prod-api nas últimas 6 horas. Algum tempo de deploy se correlaciona com o pico de erro?✓ Copiado→ Linha do tempo de deploy alinhada com o início do erro
Resultado: Uma hipótese concreta como 'deploy abc123 às 14:22 UTC se correlaciona com o início de 5xx às 14:23' com as evidências para respaldar.
Armadilhas
- Consultas Logs Insights contra um grande grupo de logs sem uma janela de tempo custam dinheiro real — Sempre inclua limites de
@timestampmais estreitos que 1 hora; o MCP não impedirá que você seja faturado $$$ - Recursos entre contas precisam do perfil de credencial correto — Defina a variável de ambiente
AWS_PROFILEpor invocação de servidor; não assuma que o perfil padrão é o que você quer