/ 目錄 / 演練場 / Firecrawl
● 官方 firecrawl 🔑 需要你的金鑰

Firecrawl

作者 firecrawl · firecrawl/firecrawl-mcp-server

把任何網頁轉成你的 AI 代理能用的乾淨、結構化資料 — 處理 JS 渲染的網站,透過 schema 提供 JSON。

Firecrawl 是一個為 LLM 消費最佳化的託管爬蟲服務。基礎的 fetch MCP 只給你原始 HTML,但 Firecrawl 會渲染 JS 繁重的頁面、去掉樣板,回傳乾淨的 Markdown,還支援透過 JSON schema 的結構化擷取。

為什麼要用

核心特性

即時演示

實際使用效果

firecrawl.replay ▶ 就緒
0/0

安裝

選擇你的客戶端

~/Library/Application Support/Claude/claude_desktop_config.json  · Windows: %APPDATA%\Claude\claude_desktop_config.json
{
  "mcpServers": {
    "firecrawl": {
      "command": "npx",
      "args": [
        "-y",
        "firecrawl-mcp"
      ]
    }
  }
}

開啟 Claude Desktop → Settings → Developer → Edit Config。儲存後重啟應用。

~/.cursor/mcp.json · .cursor/mcp.json
{
  "mcpServers": {
    "firecrawl": {
      "command": "npx",
      "args": [
        "-y",
        "firecrawl-mcp"
      ]
    }
  }
}

Cursor 使用與 Claude Desktop 相同的 mcpServers 格式。專案級設定優先於全域。

VS Code → Cline → MCP Servers → Edit
{
  "mcpServers": {
    "firecrawl": {
      "command": "npx",
      "args": [
        "-y",
        "firecrawl-mcp"
      ]
    }
  }
}

點擊 Cline 側欄中的 MCP Servers 圖示,然後選 "Edit Configuration"。

~/.codeium/windsurf/mcp_config.json
{
  "mcpServers": {
    "firecrawl": {
      "command": "npx",
      "args": [
        "-y",
        "firecrawl-mcp"
      ]
    }
  }
}

格式與 Claude Desktop 相同。重啟 Windsurf 生效。

~/.continue/config.json
{
  "mcpServers": [
    {
      "name": "firecrawl",
      "command": "npx",
      "args": [
        "-y",
        "firecrawl-mcp"
      ]
    }
  ]
}

Continue 使用伺服器物件陣列,而非映射。

~/.config/zed/settings.json
{
  "context_servers": {
    "firecrawl": {
      "command": {
        "path": "npx",
        "args": [
          "-y",
          "firecrawl-mcp"
        ]
      }
    }
  }
}

加入 context_servers。Zed 儲存後熱重載。

claude mcp add firecrawl -- npx -y firecrawl-mcp

一行命令搞定。用 claude mcp list 驗證,claude mcp remove 移除。

使用場景

實戰用法: Firecrawl

建立即時競爭對手定價比較表

👤 進行市場研究的 PM、創辦人 ⏱ ~20 min intermediate

何時使用: 你在調整定價策略,需要看到 5 個競爭對手的可比方案定價和資料來源。

前置條件
  • Firecrawl API 金鑰 — firecrawl.dev — 免費方案提供 500 點數,足以處理約 50 個頁面
步驟
  1. 定義 'pricing' 的 schema
    我想比較 [你的分類] 的定價。定義一個 schema 來捕捉:方案名稱、月價、包含的用量、關鍵功能和任何按單位超額費用。✓ 已複製
    → 具有這些嚴格類型欄位的 schema
  2. 在 5 個競爭對手 URL 上並行執行擷取
    使用 schema 從這 5 個 URL 擷取定價:[列出 URL]。使用結構化擷取端點。✓ 已複製
    → 5 個標準化的 JSON 資料可供比較
  3. 以引文呈現為比較表
    將此呈現為 Markdown 表格,每個競爭對手為一列。加上指向每個來源 URL 的引文腳註。✓ 已複製
    → 可直接用於文件或簡報的比較

結果: 一個標準化的定價表,你可以隨時重新執行以偵測變化 — 每次更新成本約 5 個 Firecrawl 點數。

注意事項
  • 定價頁面通常有爬蟲無法顯示的切換選項(月/年、使用量等級) — 用 actions: [{type: 'click', selector: '...toggle...'}] 執行以捕捉兩種狀態,或在最終輸出中註明限制
  • 某些網站透過 Cloudflare 阻止爬蟲 — Firecrawl 可以處理大多數情況。如果仍被阻止,該頁面可能有意使用反機器人措施 — 尊重這一點並手動引用
搭配使用: notion · google-sheets

監控競爭對手的文件網站以取得新功能

👤 產品行銷人員、競爭智慧 ⏱ ~15 min intermediate

何時使用: 你想在 24 小時內知道競爭對手何時推出新東西。他們的更新日誌/部落格是公告的地方。

前置條件
  • 他們的更新日誌或部落格索引頁面的 URL — 通常是 /changelog、/blog、/releases 或 /whats-new
步驟
  1. 爬取更新日誌索引
    以 depth=1 爬取 <URL>,回傳所有貼文 URL 及其日期。限制為最近 50 篇。✓ 已複製
    → 包含日期的最近貼文清單
  2. 將每篇貼文擷取為標準化格式
    對於過去 30 天發布的貼文,將標題、日期、摘要和任何功能名稱提及擷取為 JSON。✓ 已複製
    → 可與上週執行比對的結構化更新日誌
  3. 突出相比上週新增的內容
    與上次執行比對 [貼上先前的 JSON]。本週新增什麼,戰略含義為何?✓ 已複製
    → 包含戰略評論的差異

結果: 一個每週競爭對手摘要,你可以作為排程工作執行 — 永遠不會錯過功能發布。

注意事項
  • RSS 訂閱源通常存在且比爬蟲更便宜 — 先嘗試 <url>/feed.xml<url>/rss — 只有在沒有訂閱源時才改用爬蟲
搭配使用: notion

用結構化公司統計數據擴充公司 URL 清單

👤 銷售、行銷營運 ⏱ ~30 min intermediate

何時使用: 你有 200 個公司網站的 CSV,需要他們的員工數、產業和技術棧來優先進行外聯。

前置條件
  • URL 來源清單 — 首頁 URL 的 CSV 或文字檔
步驟
  1. 定義擴充 schema
    定義 schema,包含:company_name、industry、employee_count_estimate、headquarters_location、primary_product_description(1 行)、tech_stack_signals(清單)。✓ 已複製
    → 嚴格的 JSON schema
  2. 以速率限制從每個 URL 擷取
    對於 [清單] 中的每個 URL,使用 schema 執行 Firecrawl 擷取。以 10 個為一批處理,暫停 2 秒以保持禮貌。✓ 已複製
    → 每個 URL 的 JSON,錯誤另行記錄
  3. 輸出乾淨的 CSV
    將結果轉換為 CSV,以原始 URL 為聯結鍵。標記擷取失敗的行,以便我手動重試。✓ 已複製
    → 可匯入你的 CRM 的 CSV

結果: 在約 10 分鐘內獲得 200 行擴充的潛在客戶清單,費用約 2 美元的 Firecrawl 點數。

注意事項
  • 某些公司只有單頁宣傳網站,沒有資訊 — 讓 Claude 標記那些以供手動審閱,而不是幻覺
  • 大規模成本會累加 — 10k URL = 真實成本 — 先取樣以驗證 schema 品質,再在完整清單上執行
搭配使用: filesystem

組合

與其他 MCP 搭配,撬動十倍槓桿

firecrawl + notion

爬取、摘要、直接發布到 Notion 知識庫

爬取 anthropic.com/news 過去 30 天的每篇貼文,將每篇摘要為 2 句,並在 'AI News' 資料庫中為每篇建立 Notion 頁面。✓ 已複製
firecrawl + postgres

每週爬取競爭對手資料並存放在你的資料庫以進行時間序列分析

執行我的競爭對手定價擷取,然後將每一行 INSERT 到 competitor_pricing 表中,附上今天的日期。✓ 已複製
firecrawl + filesystem

爬取文件網站並儲存為 Markdown,用於離線 RAG 索引

爬取 docs.stripe.com,將每個頁面儲存為 /knowledge/stripe/ 下的 .md 檔案。✓ 已複製

工具

此 MCP 暴露的能力

工具輸入參數何時呼叫成本
firecrawl_scrape url: str, formats?: ['markdown'|'html'|'links'|'screenshot'] 你需要單一頁面的內容作為模型的 Markdown 1 點數每頁
firecrawl_crawl url, limit, includePaths?, excludePaths?, maxDepth? 你需要爬取網站的整個部分 每個已爬取頁面 1 點數
firecrawl_extract urls: str[], schema: JSONSchema, prompt? 你想要結構化 JSON,而不是原始文字 每頁 5 點數(由 LLM 支援)
firecrawl_map url, search? 探索網站上的所有 URL,不用下載內容 1 點數

成本與限制

運行它的成本

API 配額
免費方案:500 點數,10 個並發。Hobby:每月 19 美元獲得 3000 點數。
每次呼叫 Token 數
每個已爬取頁面平均約 2000 個 token(Markdown 正文)
費用
爬取 1 點數、結構化擷取 5 點數、地圖 1 點數。點數不會結轉。
提示
先使用 firecrawl_map 規劃,然後只 firecrawl_scrape 你實際需要的 URL。積極快取 — 大多數頁面不會每天變化。

安全

權限、密鑰、影響範圍

憑證儲存: API 金鑰在環境變數 FIRECRAWL_API_KEY
資料出站: 所有請求都透過 Firecrawl 的伺服器(US/EU 區域)。他們代理到目標網站。

故障排查

常見錯誤與修復

402 Payment Required

點數不足。在 firecrawl.dev/dashboard 充值或等待每月重置。

Empty markdown returned

頁面可能僅限 JS;確保已設定 formats: ['markdown']mobile: false。嘗試使用 actions: [{type:'wait', milliseconds: 3000}] 以允許 JS 執行。

Crawl returns fewer pages than expected

檢查 excludePaths 是否過於激進。另外:許多網站的 robots.txt 會阻止爬蟲。Firecrawl 預設會尊重。

429 Too Many Requests (target site)

降低爬取選項中的並發。某些網站對每個 IP 強制執行請求預算。

替代方案

Firecrawl 對比其他方案

替代方案何時用它替代權衡
fetch MCP靜態 HTML 頁面、不需要 JS 渲染、不需要 schema 擷取免費且快速,但在 SPA 上會失敗,你需要解析原始 HTML
Playwright MCP你需要與頁面互動(登入、點擊流程)需要更多程式碼,更適合複雜互動;未針對批量擷取最佳化
Brightdata MCP你需要住宅代理來存取阻止資料中心 IP 的網站笨重且昂貴 — 只有在難以應對的目標上才值得
Apify MCP你需要特定網站的預製爬蟲(Amazon、LinkedIn 結構化資料)更適合具有預製 actor 的特定目標;需要更多設定

更多

資源

📖 閱讀 GitHub 上的官方 README

🐙 查看未解決的 issue

🔍 瀏覽全部 400+ MCP 伺服器和 Skills