Encuentra el skill que está tirando del rendimiento de tu agente
Cuándo usarlo: Sientes que el agente ha empeorado, no mejorado, a medida que añadiste skills.
Requisitos previos
- Node 20+ — nvm install 20
- Skill clonado e instalado — git clone https://github.com/Evol-ai/SkillCompass ~/.claude/skills/SkillCompass; npm i
Flujo
-
Ejecuta el evaluadorPuntúa todos los skills en ~/.claude/skills/ — muéstrame el eslabón débil.✓ Copiado→ Lista de skills clasificada con puntuaciones por dimensión
-
Diagnostica el skill más débilPara el skill más débil, ¿qué está mal específicamente?✓ Copiado→ Crítica concreta (descripción vaga, conflicto con otro skill, etc.)
-
Propón una soluciónSugiere una edición mínima a SKILL.md para arreglarlo.✓ Copiado→ Diff pequeño y revisable
-
Re-evalúaRe-ejecuta la evaluación y muestra antes/después.✓ Copiado→ Métricas mejoradas, con evidencia
Resultado: Un conjunto de skills mediblemente mejor, con un proceso de evaluación reproducible.
Errores comunes
- Jugar con la métrica de evaluación en lugar de ayudar a tareas reales — Incluye métricas de nivel de tarea en cascada (resultados reales del agente), no solo a nivel de texto