/ Directorio / Playground / SkillCompass
● Comunidad Evol-ai ⚡ Instantáneo

SkillCompass

por Evol-ai · Evol-ai/SkillCompass

Evalúa la calidad de tus Agent Skills — encuentra el eslabón débil, corrígelo y demuestra que funcionó con métricas antes/después.

SkillCompass puntúa tus Agent Skills en claridad, tasa de activación, corrección en cascada y coste de contexto. Destaca el skill que probablemente está dañando el rendimiento de tu agente, sugiere una corrección y re-ejecuta la evaluación para que puedas mostrar la mejora. Útil cuando tienes varios skills instalados y no sabes cuáles realmente merecen su peso de contexto.

Por qué usarlo

Características clave

Demo en vivo

Cómo se ve en la práctica

skillcompass-skill.replay ▶ listo
0/0

Instalar

Elige tu cliente

~/Library/Application Support/Claude/claude_desktop_config.json  · Windows: %APPDATA%\Claude\claude_desktop_config.json
{
  "mcpServers": {
    "skillcompass-skill": {
      "command": "git",
      "args": [
        "clone",
        "https://github.com/Evol-ai/SkillCompass",
        "~/.claude/skills/SkillCompass"
      ],
      "_inferred": true
    }
  }
}

Abre Claude Desktop → Settings → Developer → Edit Config. Reinicia después de guardar.

~/.cursor/mcp.json · .cursor/mcp.json
{
  "mcpServers": {
    "skillcompass-skill": {
      "command": "git",
      "args": [
        "clone",
        "https://github.com/Evol-ai/SkillCompass",
        "~/.claude/skills/SkillCompass"
      ],
      "_inferred": true
    }
  }
}

Cursor usa el mismo esquema mcpServers que Claude Desktop. La configuración del proyecto prevalece sobre la global.

VS Code → Cline → MCP Servers → Edit
{
  "mcpServers": {
    "skillcompass-skill": {
      "command": "git",
      "args": [
        "clone",
        "https://github.com/Evol-ai/SkillCompass",
        "~/.claude/skills/SkillCompass"
      ],
      "_inferred": true
    }
  }
}

Haz clic en el icono MCP Servers de la barra lateral de Cline y luego en "Edit Configuration".

~/.codeium/windsurf/mcp_config.json
{
  "mcpServers": {
    "skillcompass-skill": {
      "command": "git",
      "args": [
        "clone",
        "https://github.com/Evol-ai/SkillCompass",
        "~/.claude/skills/SkillCompass"
      ],
      "_inferred": true
    }
  }
}

Mismo formato que Claude Desktop. Reinicia Windsurf para aplicar.

~/.continue/config.json
{
  "mcpServers": [
    {
      "name": "skillcompass-skill",
      "command": "git",
      "args": [
        "clone",
        "https://github.com/Evol-ai/SkillCompass",
        "~/.claude/skills/SkillCompass"
      ]
    }
  ]
}

Continue usa un array de objetos de servidor en lugar de un mapa.

~/.config/zed/settings.json
{
  "context_servers": {
    "skillcompass-skill": {
      "command": {
        "path": "git",
        "args": [
          "clone",
          "https://github.com/Evol-ai/SkillCompass",
          "~/.claude/skills/SkillCompass"
        ]
      }
    }
  }
}

Añádelo a context_servers. Zed recarga en caliente al guardar.

claude mcp add skillcompass-skill -- git clone https://github.com/Evol-ai/SkillCompass ~/.claude/skills/SkillCompass

Un solo comando. Verifica con claude mcp list. Quita con claude mcp remove.

Casos de uso

Usos del mundo real: SkillCompass

Encuentra el skill que está tirando del rendimiento de tu agente

👤 Autores de skills con 5+ skills instalados ⏱ ~45 min advanced

Cuándo usarlo: Sientes que el agente ha empeorado, no mejorado, a medida que añadiste skills.

Requisitos previos
  • Node 20+ — nvm install 20
  • Skill clonado e instalado — git clone https://github.com/Evol-ai/SkillCompass ~/.claude/skills/SkillCompass; npm i
Flujo
  1. Ejecuta el evaluador
    Puntúa todos los skills en ~/.claude/skills/ — muéstrame el eslabón débil.✓ Copiado
    → Lista de skills clasificada con puntuaciones por dimensión
  2. Diagnostica el skill más débil
    Para el skill más débil, ¿qué está mal específicamente?✓ Copiado
    → Crítica concreta (descripción vaga, conflicto con otro skill, etc.)
  3. Propón una solución
    Sugiere una edición mínima a SKILL.md para arreglarlo.✓ Copiado
    → Diff pequeño y revisable
  4. Re-evalúa
    Re-ejecuta la evaluación y muestra antes/después.✓ Copiado
    → Métricas mejoradas, con evidencia

Resultado: Un conjunto de skills mediblemente mejor, con un proceso de evaluación reproducible.

Errores comunes
  • Jugar con la métrica de evaluación en lugar de ayudar a tareas reales — Incluye métricas de nivel de tarea en cascada (resultados reales del agente), no solo a nivel de texto

Revisa un nuevo skill antes de publicarlo

👤 Autores de skills lanzando su primer conjunto ⏱ ~20 min intermediate

Cuándo usarlo: Antes de subir a GitHub y contarle al mundo sobre tu skill.

Flujo
  1. Puntúa el borrador
    Evalúa mi skill borrador en ./my-skill/.✓ Copiado
    → Puntuaciones por dimensión
  2. Corrige los problemas obvios
    Aplica las sugerencias de bajo esfuerzo✓ Copiado
    → Ediciones en SKILL.md

Resultado: Un skill listo para publicar en lugar de un borrador sin pulir.

Errores comunes
  • Perseguir una puntuación perfecta — Lanza cuando las puntuaciones se estabilizan — rendimientos decrecientes

Combinaciones

Combínalo con otros MCPs para multiplicar por 10

skillcompass-skill + skill-optimizer-skill

Dos herramientas complementarias: SkillCompass clasifica, skill-optimizer profundiza en patrones de SKILL.md

Usa SkillCompass para elegir el peor skill; usa skill-optimizer para analizar profundamente su SKILL.md.✓ Copiado
skillcompass-skill + filesystem

Operar en todo el directorio ~/.claude/skills/

Evalúa cada skill en ~/.claude/skills/ y dame un CSV.✓ Copiado

Herramientas

Lo que expone este MCP

HerramientaEntradasCuándo llamarCoste
skill-scoring skill path(s) Auditorías periódicas cálculo de evaluación
weakest-link-id bundle scores Después de puntuar 0
fix-suggestion weak skill + critique Antes de editar 0
before-after-eval pre/post SKILL.md Después de aplicar correcciones cálculo de evaluación

Coste y límites

Lo que cuesta ejecutarlo

Cuota de API
Ninguno más allá de tu proveedor LLM (las evaluaciones usan llamadas LLM)
Tokens por llamada
Las evaluaciones pueden ser pesadas — presupuesta 20–100k tokens para un escaneo completo del conjunto
Monetario
Gratuito, MIT
Consejo
Ejecuta un skill a la vez durante la iteración; ejecuta el conjunto solo para auditorías

Seguridad

Permisos, secretos, alcance

Almacenamiento de credenciales: Ninguno a nivel de skill
Salida de datos: Ninguno más allá de tu proveedor LLM

Resolución de problemas

Errores comunes y soluciones

Errores de Node en la instalación

Asegura Node 20+; npm i dentro del directorio del skill.

Verificar: node -v
Las evaluaciones son inconsistentes de una ejecución a otra

Fija la semilla de la tarea y usa una muestra no estocástica; graba el proveedor+modelo.

Alternativas

SkillCompass vs otros

AlternativaCuándo usarlaContrapartida
skill-optimizer-skillQuieres un solo skill analizado profundamente en lugar de un conjunto clasificadoProfundidad sobre amplitud
revisión manualTienes 1–2 skills en totalNo escala

Más

Recursos

📖 Lee el README oficial en GitHub

🐙 Ver issues abiertas

🔍 Ver todos los 400+ servidores MCP y Skills