/ Directorio / Playground / web-eval-agent
● Comunidad refreshdotdev ⚡ Instantáneo

web-eval-agent

por refreshdotdev · refreshdotdev/web-eval-agent

Pruebas end-to-end en lenguaje natural para aplicaciones web — el agente maneja un navegador, captura consola/red y genera reportes.

web-eval-agent (refreshdotdev) te permite describir una tarea de usuario en inglés natural; el MCP abre un navegador, ejecuta el flujo y genera reportes con capturas de pantalla, registros de consola y tráfico de red. Útil para pruebas de UX exploratorias sin escribir scripts de Playwright. Nota: el proyecto original está descontinuado — el equipo se trasladó a withrefresh.com — pero el MCP sigue siendo funcional bajo su licencia actual.

Por qué usarlo

Características clave

Demo en vivo

Cómo se ve en la práctica

web-eval-agent.replay ▶ listo
0/0

Instalar

Elige tu cliente

~/Library/Application Support/Claude/claude_desktop_config.json  · Windows: %APPDATA%\Claude\claude_desktop_config.json
{
  "mcpServers": {
    "web-eval-agent": {
      "command": "uvx",
      "args": [
        "web-eval-agent"
      ],
      "_inferred": true
    }
  }
}

Abre Claude Desktop → Settings → Developer → Edit Config. Reinicia después de guardar.

~/.cursor/mcp.json · .cursor/mcp.json
{
  "mcpServers": {
    "web-eval-agent": {
      "command": "uvx",
      "args": [
        "web-eval-agent"
      ],
      "_inferred": true
    }
  }
}

Cursor usa el mismo esquema mcpServers que Claude Desktop. La configuración del proyecto prevalece sobre la global.

VS Code → Cline → MCP Servers → Edit
{
  "mcpServers": {
    "web-eval-agent": {
      "command": "uvx",
      "args": [
        "web-eval-agent"
      ],
      "_inferred": true
    }
  }
}

Haz clic en el icono MCP Servers de la barra lateral de Cline y luego en "Edit Configuration".

~/.codeium/windsurf/mcp_config.json
{
  "mcpServers": {
    "web-eval-agent": {
      "command": "uvx",
      "args": [
        "web-eval-agent"
      ],
      "_inferred": true
    }
  }
}

Mismo formato que Claude Desktop. Reinicia Windsurf para aplicar.

~/.continue/config.json
{
  "mcpServers": [
    {
      "name": "web-eval-agent",
      "command": "uvx",
      "args": [
        "web-eval-agent"
      ]
    }
  ]
}

Continue usa un array de objetos de servidor en lugar de un mapa.

~/.config/zed/settings.json
{
  "context_servers": {
    "web-eval-agent": {
      "command": {
        "path": "uvx",
        "args": [
          "web-eval-agent"
        ]
      }
    }
  }
}

Añádelo a context_servers. Zed recarga en caliente al guardar.

claude mcp add web-eval-agent -- uvx web-eval-agent

Un solo comando. Verifica con claude mcp list. Quita con claude mcp remove.

Casos de uso

Usos del mundo real: web-eval-agent

Prueba de humo de un despliegue web con web-eval-agent

👤 Desarrolladores en solitario, equipos pequeños sin suite de Playwright ⏱ ~10 min beginner

Cuándo usarlo: Realizaste un despliegue y quieres una comprobación rápida de 'ché rompí algo obvio'.

Requisitos previos
  • Clave API gratuita de operative.sh/mcp — Regístrate, copia la clave
  • Dependencias de Playwright — npx playwright install (el MCP te indicará si faltan)
Flujo
  1. Describe la prueba
    En staging.example.com, verifica que puedo: registrarme con un correo nuevo, crear un proyecto, cerrar sesión. Reporta qué falla.✓ Copiado
    → Aprobado/fallido con capturas de pantalla
  2. Profundiza en los fallos
    Para el paso fallido, muestra los errores de consola y la solicitud de red que devolvió 500.✓ Copiado
    → Evidencia a nivel de stack

Resultado: Confianza post-despliegue en 2 minutos.

Errores comunes
  • Las cuentas de prueba atascan tu BD de producción — Siempre ejecuta contra staging; si es producción, usa una cuenta QA dedicada y limpia
Combinar con: sentry

Evaluación UX exploratoria de un nuevo flujo

👤 Diseñadores, PMs ⏱ ~20 min intermediate

Cuándo usarlo: Quieres una perspectiva externa sobre un flujo sin programar pruebas de usuario.

Flujo
  1. Describe la intención del usuario, no los pasos
    Como usuario por primera vez, intenta compartir un proyecto con un colega. Anota cada punto de fricción.✓ Copiado
    → Crítica UX sin estructura con capturas de cada confusión
  2. Contrasta con el camino feliz
    Ahora haz el mismo flujo como usuario avanzado que conoce la UI. ¿Cuánto más rápido? ¿Qué confundió al novato pero no al experto?✓ Copiado
    → Mapa de fricción comparativo

Resultado: Heurísticas UX baratas antes de poner usuarios reales frente a ello.

Prueba características detrás de login con estado del navegador persistente

👤 Cualquiera que pruebe flujos autenticados ⏱ ~15 min intermediate

Cuándo usarlo: Tu característica requiere login; no quieres que el agente maneje tu contraseña.

Flujo
  1. Inicia la sesión
    Llama setup_browser_state abriendo https://app.example.com/login — yo inicio sesión.✓ Copiado
    → Se abre navegador interactivo; inicia sesión; sesión guardada
  2. Ejecuta la prueba usando el estado guardado
    Prueba la página de configuración de facturación: cárgala, verifica que se muestre el plan actual, intenta degradar.✓ Copiado
    → La prueba se ejecuta con tu sesión autenticada

Resultado: Pruebas autenticadas sin compartir credenciales con el agente.

Combinaciones

Combínalo con otros MCPs para multiplicar por 10

web-eval-agent + sentry

Ejecuta una evaluación, cualquier error nuevo va a Sentry para revisión post-hoc

Ejecuta la evaluación de registro, luego verifica Sentry para nuevos eventos de error capturados en esa ventana.✓ Copiado
web-eval-agent + playwright

Prototipa con web-eval-agent, endurece en Playwright para CI

Convierte la prueba web-eval-agent funcional en una especificación de Playwright que pueda ejecutar en CI.✓ Copiado

Herramientas

Lo que expone este MCP

HerramientaEntradasCuándo llamarCoste
web_eval_agent url: str, task: str, headless_browser?: bool Cualquier prueba web en lenguaje natural Llamadas LLM + tiempo de navegador
setup_browser_state url?: str Una vez por servicio, para persistir el estado de sesión iniciada 0

Coste y límites

Lo que cuesta ejecutarlo

Cuota de API
Nivel gratuito de operative.sh
Tokens por llamada
Una evaluación completa puede ser 5-20k tokens (capturas descritas)
Monetario
Gratuito para bajo volumen
Consejo
Para pruebas repetitivas, gradúalas a Playwright; usa web-eval-agent para exploración

Seguridad

Permisos, secretos, alcance

Almacenamiento de credenciales: Clave API operative.sh en env; estado del navegador guardado localmente
Salida de datos: Sitios objetivo + operative.sh para orquestación de evaluación

Resolución de problemas

Errores comunes y soluciones

El navegador no se inicia

Instala dependencias de Playwright: npx playwright install-deps

La sesión sigue caducando

Algunos sitios rotan cookies; vuelve a ejecutar setup_browser_state. O usa storageState de Playwright para control más fino

El agente no entiende la tarea

Sé específico: URLs, selectores o texto a buscar, resultados esperados

Alternativas

web-eval-agent vs otros

AlternativaCuándo usarlaContrapartida
Playwright MCPQuieres pruebas programables y reproduciblesTú escribes el código
Browserbase MCPNecesitas navegadores alojados en la nube para CIPagado por minuto

Más

Recursos

📖 Lee el README oficial en GitHub

🐙 Ver issues abiertas

🔍 Ver todos los 400+ servidores MCP y Skills