Realizar triaje de una alarma de CloudWatch correlacionando registros, métricas y despliegues recientes
Cuándo usarlo: Se acaba de activar una alarma y quieres ir de 'qué servicio, qué despliegue, qué línea de registro' sin navegar por la consola.
Requisitos previos
- Credenciales de AWS con lectura de CloudWatch + CloudFormation —
aws sso logincon un rol que tenga la política administrada ReadOnlyAccess - Servidor aws-cloudwatch-mcp ejecutándose —
uvx awslabs.cloudwatch-mcp-server— o instala el bundle
Flujo
-
Obtén los detalles de la alarma y los recursos afectadosDescribe la alarma de CloudWatch 'prod-api-5xx-high'. ¿Qué recurso vigila, cuál es el umbral, cuál es el estado actual?✓ Copiado→ Configuración de alarma más historial de estado (cuándo cambió)
-
Consulta registros alrededor de la violaciónEjecuta una consulta de Logs Insights en el grupo de registros /aws/ecs/prod-api desde 10 minutos antes de que se activara la alarma hasta ahora. Encuentra líneas de registro de nivel ERROR agrupadas por plantilla de mensaje.✓ Copiado→ Plantillas de error principales con recuentos
-
Correlaciona con despliegues recientesLista despliegues de CodeDeploy al servicio prod-api en las últimas 6 horas. ¿Correlaciona algún tiempo de despliegue con el pico de errores?✓ Copiado→ Línea de tiempo de despliegue alineada con el inicio del error
Resultado: Una hipótesis concreta como 'el despliegue abc123 a las 14:22 UTC correlaciona con el inicio de 5xx a las 14:23' con la evidencia que la respalda.
Errores comunes
- Las consultas de Logs Insights contra un grupo de registros grande sin una ventana de tiempo cuestan dinero real — Siempre incluye límites de
@timestampmás estrechos que 1 hora; el MCP no te detendrá de facturar $$$ - Los recursos entre cuentas necesitan el perfil de credenciales correcto — Establece la variable de entorno
AWS_PROFILEpor invocación de servidor; no asumas que el perfil predeterminado es el que quieres