/ 目錄 / 演練場 / web-eval-agent
● 社群 refreshdotdev ⚡ 即開即用

web-eval-agent

作者 refreshdotdev · refreshdotdev/web-eval-agent

網路應用的自然語言端對端測試——代理驅動瀏覽器、擷取主控台/網路日誌,並回報發現結果。

web-eval-agent (refreshdotdev) 讓你用純英文描述使用者任務;MCP 會開啟瀏覽器、執行流程,並回報截圖、主控台日誌和網路流量。對於不想寫 Playwright 指令碼的探索性 UX 測試很有用。注意:原始專案已停止維護——團隊已轉移到 withrefresh.com——但 MCP 仍在既有授權下保持正常運作。

為什麼要用

核心特性

即時演示

實際使用效果

web-eval-agent.replay ▶ 就緒
0/0

安裝

選擇你的客戶端

~/Library/Application Support/Claude/claude_desktop_config.json  · Windows: %APPDATA%\Claude\claude_desktop_config.json
{
  "mcpServers": {
    "web-eval-agent": {
      "command": "uvx",
      "args": [
        "web-eval-agent"
      ],
      "_inferred": true
    }
  }
}

開啟 Claude Desktop → Settings → Developer → Edit Config。儲存後重啟應用。

~/.cursor/mcp.json · .cursor/mcp.json
{
  "mcpServers": {
    "web-eval-agent": {
      "command": "uvx",
      "args": [
        "web-eval-agent"
      ],
      "_inferred": true
    }
  }
}

Cursor 使用與 Claude Desktop 相同的 mcpServers 格式。專案級設定優先於全域。

VS Code → Cline → MCP Servers → Edit
{
  "mcpServers": {
    "web-eval-agent": {
      "command": "uvx",
      "args": [
        "web-eval-agent"
      ],
      "_inferred": true
    }
  }
}

點擊 Cline 側欄中的 MCP Servers 圖示,然後選 "Edit Configuration"。

~/.codeium/windsurf/mcp_config.json
{
  "mcpServers": {
    "web-eval-agent": {
      "command": "uvx",
      "args": [
        "web-eval-agent"
      ],
      "_inferred": true
    }
  }
}

格式與 Claude Desktop 相同。重啟 Windsurf 生效。

~/.continue/config.json
{
  "mcpServers": [
    {
      "name": "web-eval-agent",
      "command": "uvx",
      "args": [
        "web-eval-agent"
      ]
    }
  ]
}

Continue 使用伺服器物件陣列,而非映射。

~/.config/zed/settings.json
{
  "context_servers": {
    "web-eval-agent": {
      "command": {
        "path": "uvx",
        "args": [
          "web-eval-agent"
        ]
      }
    }
  }
}

加入 context_servers。Zed 儲存後熱重載。

claude mcp add web-eval-agent -- uvx web-eval-agent

一行命令搞定。用 claude mcp list 驗證,claude mcp remove 移除。

使用場景

實戰用法: web-eval-agent

用 web-eval-agent 進行部署煙霧測試

👤 獨立開發者、沒有 Playwright 測試套件的小團隊 ⏱ ~10 min beginner

何時使用: 你完成部署,想快速檢查有沒有明顯的功能損壞。

前置條件
  • operative.sh/mcp 的免費 API 金鑰 — 註冊並複製金鑰
  • Playwright 依賴 — npx playwright install(MCP 會在缺少時提示)
步驟
  1. 描述測試
    在 staging.example.com 上,驗證我能夠:用新郵件註冊、建立專案、登出。回報哪些步驟失敗。✓ 已複製
    → 成功/失敗並附帶截圖
  2. 深入調查失敗
    對於失敗的步驟,顯示主控台錯誤和返回 500 的網路請求。✓ 已複製
    → 堆疊層級的證據

結果: 2 分鐘內獲得部署後的信心指標。

注意事項
  • 測試帳號會污染你的生產資料庫 — 永遠針對測試環境執行;若要用生產環境,使用專用的 QA 帳號並清理資料
搭配使用: sentry

對新流程進行探索性 UX 評估

👤 設計師、產品經理 ⏱ ~20 min intermediate

何時使用: 你想了解某個流程的外部看法,而不需要安排正式的使用者測試。

步驟
  1. 描述使用者意圖,不是具體步驟
    以首次使用者的身分,試著與同事分享一個專案。記下每個摩擦點。✓ 已複製
    → 自由形式的 UX 批評,以及每個困惑之處的截圖
  2. 與快樂路徑對比
    現在以熟悉 UI 的進階使用者身分執行相同流程。快多少?新手覺得困惑但進階使用者不會的地方有哪些?✓ 已複製
    → 比較性摩擦地圖

結果: 在將真實使用者引入之前,進行成本低廉的 UX 啟發式評估。

使用保存的瀏覽器狀態測試登入後的功能

👤 任何測試身份驗證流程的人 ⏱ ~15 min intermediate

何時使用: 你的功能需要登入;你不想讓代理處理你的密碼。

步驟
  1. 播種工作階段
    呼叫 setup_browser_state 開啟 https://app.example.com/login——我會自己登入。✓ 已複製
    → 互動式瀏覽器開啟;你登入;工作階段已保存
  2. 使用保存的狀態執行測試
    測試帳單設定頁面:載入它、驗證目前方案顯示正確、嘗試降級。✓ 已複製
    → 測試使用你已驗證的工作階段執行

結果: 不與代理共享認證資訊的情況下進行已驗證的測試。

組合

與其他 MCP 搭配,撬動十倍槓桿

web-eval-agent + sentry

執行評估,任何新錯誤都會進入 Sentry 進行事後檢閱

執行註冊評估,然後檢查 Sentry 中該時間窗口內擷取的新錯誤事件。✓ 已複製
web-eval-agent + playwright

用 web-eval-agent 製作原型,硬化為 Playwright 用於 CI

將可行的 web-eval-agent 測試轉換為可在 CI 中執行的 Playwright 規格。✓ 已複製

工具

此 MCP 暴露的能力

工具輸入參數何時呼叫成本
web_eval_agent url: str, task: str, headless_browser?: bool 任何自然語言網路測試 LLM calls + browser time
setup_browser_state url?: str 每項服務執行一次,保存已登入狀態 0

成本與限制

運行它的成本

API 配額
operative.sh 的免費層級
每次呼叫 Token 數
完整評估可能是 5-20k 個權杖(描述的截圖)
費用
低流量免費
提示
對於重複測試,將其升級為 Playwright;將 web-eval-agent 用於探索

安全

權限、密鑰、影響範圍

憑證儲存: 環境變數中的 operative.sh API 金鑰;瀏覽器狀態保存在本機
資料出站: 目標網站 + operative.sh 進行評估協調

故障排查

常見錯誤與修復

瀏覽器無法啟動

安裝 Playwright 依賴:npx playwright install-deps

工作階段持續過期

某些網站會輪換 cookie;重新執行 setup_browser_state。或對更細緻的控制使用 Playwright 的 storageState

代理誤解任務

具體一點:URL、要尋找的選擇器或文字、預期結果

替代方案

web-eval-agent 對比其他方案

替代方案何時用它替代權衡
Playwright MCP你想要可編碼、可重複的測試你要寫程式碼
Browserbase MCP你需要用於 CI 的雲端託管瀏覽器按分鐘付費

更多

資源

📖 閱讀 GitHub 上的官方 README

🐙 查看未解決的 issue

🔍 瀏覽全部 400+ MCP 伺服器和 Skills