web-eval-agent MCP — Instalar & Demo en vivo

Por qué usarlo

Características clave

Describe pruebas en inglés natural, sin selectores ni aserciones
Captura capturas de pantalla, errores de consola, solicitudes de red
setup_browser_state persiste inicios de sesión para que las pruebas se ejecuten detrás de autenticación
Funciona en Cursor, Claude y agentes de código similares

Demo en vivo

Cómo se ve en la práctica

web-eval-agent.replay ▶ listo

0/0

Instalar

Elige tu cliente

~/Library/Application Support/Claude/claude_desktop_config.json · Windows: %APPDATA%\Claude\claude_desktop_config.json

{
  "mcpServers": {
    "web-eval-agent": {
      "command": "uvx",
      "args": [
        "web-eval-agent"
      ],
      "_inferred": true
    }
  }
}

Abre Claude Desktop → Settings → Developer → Edit Config. Reinicia después de guardar.

~/.cursor/mcp.json · .cursor/mcp.json

{
  "mcpServers": {
    "web-eval-agent": {
      "command": "uvx",
      "args": [
        "web-eval-agent"
      ],
      "_inferred": true
    }
  }
}

Cursor usa el mismo esquema mcpServers que Claude Desktop. La configuración del proyecto prevalece sobre la global.

VS Code → Cline → MCP Servers → Edit

{
  "mcpServers": {
    "web-eval-agent": {
      "command": "uvx",
      "args": [
        "web-eval-agent"
      ],
      "_inferred": true
    }
  }
}

Haz clic en el icono MCP Servers de la barra lateral de Cline y luego en "Edit Configuration".

~/.codeium/windsurf/mcp_config.json

{
  "mcpServers": {
    "web-eval-agent": {
      "command": "uvx",
      "args": [
        "web-eval-agent"
      ],
      "_inferred": true
    }
  }
}

Mismo formato que Claude Desktop. Reinicia Windsurf para aplicar.

~/.continue/config.json

{
  "mcpServers": [
    {
      "name": "web-eval-agent",
      "command": "uvx",
      "args": [
        "web-eval-agent"
      ]
    }
  ]
}

Continue usa un array de objetos de servidor en lugar de un mapa.

~/.config/zed/settings.json

{
  "context_servers": {
    "web-eval-agent": {
      "command": {
        "path": "uvx",
        "args": [
          "web-eval-agent"
        ]
      }
    }
  }
}

Añádelo a context_servers. Zed recarga en caliente al guardar.

claude mcp add web-eval-agent -- uvx web-eval-agent

Un solo comando. Verifica con claude mcp list. Quita con claude mcp remove.

Casos de uso

Usos del mundo real: web-eval-agent

Prueba de humo de un despliegue web con web-eval-agent

👤 Desarrolladores en solitario, equipos pequeños sin suite de Playwright ⏱ ~10 min beginner

Cuándo usarlo: Realizaste un despliegue y quieres una comprobación rápida de 'ché rompí algo obvio'.

Requisitos previos

Clave API gratuita de operative.sh/mcp — Regístrate, copia la clave
Dependencias de Playwright — npx playwright install (el MCP te indicará si faltan)

Flujo

Describe la prueba

En staging.example.com, verifica que puedo: registrarme con un correo nuevo, crear un proyecto, cerrar sesión. Reporta qué falla.✓ Copiado

→ Aprobado/fallido con capturas de pantalla
Profundiza en los fallos

Para el paso fallido, muestra los errores de consola y la solicitud de red que devolvió 500.✓ Copiado

→ Evidencia a nivel de stack

Resultado: Confianza post-despliegue en 2 minutos.

Errores comunes

Las cuentas de prueba atascan tu BD de producción — Siempre ejecuta contra staging; si es producción, usa una cuenta QA dedicada y limpia

Combinar con: sentry

Evaluación UX exploratoria de un nuevo flujo

👤 Diseñadores, PMs ⏱ ~20 min intermediate

Cuándo usarlo: Quieres una perspectiva externa sobre un flujo sin programar pruebas de usuario.

Flujo

Describe la intención del usuario, no los pasos

Como usuario por primera vez, intenta compartir un proyecto con un colega. Anota cada punto de fricción.✓ Copiado

→ Crítica UX sin estructura con capturas de cada confusión
Contrasta con el camino feliz

Ahora haz el mismo flujo como usuario avanzado que conoce la UI. ¿Cuánto más rápido? ¿Qué confundió al novato pero no al experto?✓ Copiado

→ Mapa de fricción comparativo

Resultado: Heurísticas UX baratas antes de poner usuarios reales frente a ello.

Prueba características detrás de login con estado del navegador persistente

👤 Cualquiera que pruebe flujos autenticados ⏱ ~15 min intermediate

Cuándo usarlo: Tu característica requiere login; no quieres que el agente maneje tu contraseña.

Flujo

Inicia la sesión

Llama setup_browser_state abriendo https://app.example.com/login — yo inicio sesión.✓ Copiado

→ Se abre navegador interactivo; inicia sesión; sesión guardada
Ejecuta la prueba usando el estado guardado

Prueba la página de configuración de facturación: cárgala, verifica que se muestre el plan actual, intenta degradar.✓ Copiado

→ La prueba se ejecuta con tu sesión autenticada

Resultado: Pruebas autenticadas sin compartir credenciales con el agente.

Combinaciones

Combínalo con otros MCPs para multiplicar por 10

web-eval-agent + sentry

Ejecuta una evaluación, cualquier error nuevo va a Sentry para revisión post-hoc

Ejecuta la evaluación de registro, luego verifica Sentry para nuevos eventos de error capturados en esa ventana.✓ Copiado

web-eval-agent + playwright

Prototipa con web-eval-agent, endurece en Playwright para CI

Convierte la prueba web-eval-agent funcional en una especificación de Playwright que pueda ejecutar en CI.✓ Copiado

Herramientas

Lo que expone este MCP

Herramienta	Entradas	Cuándo llamar	Coste
web_eval_agent	url: str, task: str, headless_browser?: bool	Cualquier prueba web en lenguaje natural	Llamadas LLM + tiempo de navegador
setup_browser_state	url?: str	Una vez por servicio, para persistir el estado de sesión iniciada	0

Coste y límites

Lo que cuesta ejecutarlo

Cuota de API: Nivel gratuito de operative.sh
Tokens por llamada: Una evaluación completa puede ser 5-20k tokens (capturas descritas)
Monetario: Gratuito para bajo volumen
Consejo: Para pruebas repetitivas, gradúalas a Playwright; usa web-eval-agent para exploración

Seguridad

Permisos, secretos, alcance

Almacenamiento de credenciales: Clave API operative.sh en env; estado del navegador guardado localmente

Salida de datos: Sitios objetivo + operative.sh para orquestación de evaluación

El proyecto original está archivado/descontinuado; equipo ahora en withrefresh.com. Aún funcional pero sin nuevas características esperadas.

Resolución de problemas

Errores comunes y soluciones

El navegador no se inicia

Instala dependencias de Playwright: npx playwright install-deps

La sesión sigue caducando

Algunos sitios rotan cookies; vuelve a ejecutar setup_browser_state. O usa storageState de Playwright para control más fino

El agente no entiende la tarea

Sé específico: URLs, selectores o texto a buscar, resultados esperados

Alternativas

web-eval-agent vs otros

Alternativa	Cuándo usarla	Contrapartida
Playwright MCP	Quieres pruebas programables y reproducibles	Tú escribes el código
Browserbase MCP	Necesitas navegadores alojados en la nube para CI	Pagado por minuto

Más

Recursos

📖 Lee el README oficial en GitHub

🐙 Ver issues abiertas

🔍 Ver todos los 400+ servidores MCP y Skills