/ 目录 / 演练场 / Bright Data
● 官方 brightdata 🔑 需要你的密钥

Bright Data

作者 brightdata · brightdata/brightdata-mcp

大规模搜索、爬取和网络解锁——住宅代理 + SERP API + 浏览器自动化,一个 MCP 搞定。

Bright Data 官方 MCP 整合了三大能力:跨 Google/Bing/DuckDuckGo 的实时 SERP 搜索结果、通过其解锁和代理网络抓取单个或批量 URL,以及为 50+ 个热门目标(Amazon、LinkedIn 公开资料、Instagram 公开资料、Zillow 等)预构建的结构化爬虫。额度按量消耗;建议配合采样和缓存使用。

为什么要用

核心特性

实时演示

实际使用效果

brightdata.replay ▶ 就绪
0/0

安装

选择你的客户端

~/Library/Application Support/Claude/claude_desktop_config.json  · Windows: %APPDATA%\Claude\claude_desktop_config.json
{
  "mcpServers": {
    "brightdata": {
      "command": "npx",
      "args": [
        "-y",
        "@brightdata/mcp"
      ]
    }
  }
}

打开 Claude Desktop → Settings → Developer → Edit Config。保存后重启应用。

~/.cursor/mcp.json · .cursor/mcp.json
{
  "mcpServers": {
    "brightdata": {
      "command": "npx",
      "args": [
        "-y",
        "@brightdata/mcp"
      ]
    }
  }
}

Cursor 使用与 Claude Desktop 相同的 mcpServers 格式。项目级配置优先于全局。

VS Code → Cline → MCP Servers → Edit
{
  "mcpServers": {
    "brightdata": {
      "command": "npx",
      "args": [
        "-y",
        "@brightdata/mcp"
      ]
    }
  }
}

点击 Cline 侧栏中的 MCP Servers 图标,然后选 "Edit Configuration"。

~/.codeium/windsurf/mcp_config.json
{
  "mcpServers": {
    "brightdata": {
      "command": "npx",
      "args": [
        "-y",
        "@brightdata/mcp"
      ]
    }
  }
}

格式与 Claude Desktop 相同。重启 Windsurf 生效。

~/.continue/config.json
{
  "mcpServers": [
    {
      "name": "brightdata",
      "command": "npx",
      "args": [
        "-y",
        "@brightdata/mcp"
      ]
    }
  ]
}

Continue 使用服务器对象数组,而非映射。

~/.config/zed/settings.json
{
  "context_servers": {
    "brightdata": {
      "command": {
        "path": "npx",
        "args": [
          "-y",
          "@brightdata/mcp"
        ]
      }
    }
  }
}

加入 context_servers。Zed 保存后热重载。

claude mcp add brightdata -- npx -y @brightdata/mcp

一行命令搞定。用 claude mcp list 验证,claude mcp remove 卸载。

使用场景

实战用法: Bright Data

跨地域追踪你在 Google 上的关键词排名

👤 SEO 团队 ⏱ ~20 min intermediate

何时使用: 你想为 50 个关键词在 US/UK/DE 做日常排名追踪,而无需自己运维代理。

前置条件
  • Bright Data API token — brightdata.com → dashboard → API tokens
  • 预算:每次 SERP 查询约 $0.001–$0.003 — Bright Data 账户的额度余额
步骤
  1. 为每个关键词/国家运行 SERP
    对于 [list] 中的每个关键词,从 country=us 运行 Google SERP 搜索。捕获前 10 个自然结果(url、title、position)。✓ 已复制
    → 按关键词的排序列表
  2. 定位我们的域名
    对于每个结果集,找出 mydomain.com 出现的位置(或'未在前 10')。输出 kw → position。✓ 已复制
    → 排名表
  3. 与昨天的差异对比
    与昨天的 JSON [paste] 对比。突出显示移动 > 3 个位置的结果。✓ 已复制
    → 每日变动报告

结果: 一个日常排名追踪工作流,50 个关键词每天约 $0.15,无需代理运维。

注意事项
  • 每个国家/设备组合计为一次独立查询 — 只追踪你需要的数据;50 个关键词 × 3 个国家 × 7 天 = 1050 次查询/周
搭配使用: postgres · notion

抓取阻止数据中心 IP 的页面

👤 爬虫目标被 Cloudflare-Turnstile 阻止的开发者 ⏱ ~15 min intermediate

何时使用: fetch / Firecrawl 获得 403 或验证页面;你需要住宅 IP。

步骤
  1. 用解锁工具尝试一次
    通过 Web Unlocker 抓取 <url>。返回渲染后的 HTML + HTTP 状态码。✓ 已复制
    → 200 + 真实 HTML
  2. 提取你需要的数据
    从该 HTML 中提取 [list the fields]。以 JSON 格式返回。✓ 已复制
    → 结构化数据
  3. 尊重网站
    如果页面显示'robots.txt disallow'或明确的反爬虫通知,中止并告知我。✓ 已复制
    → 遵守 consent 的备选方案

结果: 你需要的数据,无需维护代理池。

注意事项
  • 解锁工具在强硬目标(银行、SaaS 登录页面)上仍可能失败 — 这些本意是私有的;选择官方 API 或不同的方法
  • 大规模爬取时成本快速上升 — Firecrawl 或 fetch 对于未受保护的网站更便宜——只有在遇到阻止时才使用 Bright Data
搭配使用: firecrawl

通过预构建爬虫拉取结构化 Amazon 产品数据集

👤 电商分析师 ⏱ ~20 min intermediate

何时使用: 你想要 500 个 Amazon ASIN,包含干净的 title/price/rating/bsr 字段,而不是原始 HTML。

前置条件
  • ASIN 列表或分类 URL — CSV 或文本输入
步骤
  1. 启动预构建的 Amazon 爬虫
    为 ASIN [list] 运行 Bright Data Amazon 产品爬虫。返回 job id。✓ 已复制
    → 已发放 job id
  2. 轮询直到准备就绪
    轮询任务。完成后,获取数据集。✓ 已复制
    → 完整数据集已交付
  3. 缓存以避免重新运行
    将数据集保存到 /data/amazon-<date>.jsonl。标记任何错误的 ASIN。✓ 已复制
    → 已持久化的数据集 + 错误列表

结果: 一个干净的、可重新运行的 Amazon 产品数据集,约 $X/1000 产品(参见当前定价)。

注意事项
  • 公开 LinkedIn/Instagram 爬虫在地区间的法律要求不同 — 仅限公开资料数据;不要绕过身份验证——了解你的司法管辖区
搭配使用: postgres · filesystem

通过 SERP 进行品牌日常新闻搜索

👤 PR / 传播 ⏱ ~15 min beginner

何时使用: 你想要关于你的品牌在新闻搜索中被讨论的每日摘要。

步骤
  1. 运行 Google News SERP
    搜索 '<brand>' 过去 24h 的 Google News,country=us。返回前 20 个结果,包含 source、title、url、snippet。✓ 已复制
    → 新闻 SERP
  2. 从摘要中分类情感
    根据 title+snippet 将每个结果评分为 positive/neutral/negative。标记任何被评为 negative 的项目以供审查。✓ 已复制
    → 已评分列表
  3. 交付摘要
    格式化为 markdown 摘要:按情感统计、负面项目及其链接、顶部正面项目。✓ 已复制
    → 摘要准备就绪

结果: 一个专注的 PR 摘要,无需爬取各个新闻网站。

注意事项
  • 仅从标题进行情感分析存在噪音 — 仅当 title 和 snippet 都明确为负面时才标记为负面;人工审查这些标记
搭配使用: notion

组合

与其他 MCP 搭配,撬动十倍杠杆

brightdata + postgres

存储日常排名追踪行以进行趋势分析

为关键词列表运行 SERP,INSERT 到 keyword_ranks 表中,加入今天的日期。✓ 已复制
brightdata + firecrawl

便宜优先、解锁备选的爬取

先尝试 Firecrawl;如果 403/阻止,仅对该 URL 回退到 Bright Data Unlocker。✓ 已复制
brightdata + notion

每周 PR 摘要发布到 Notion

为过去 7 天运行品牌 SERP,用摘要创建 Notion 页面。✓ 已复制

工具

此 MCP 暴露的能力

工具输入参数何时调用成本
search_engine engine: 'google'|'bing'|'duckduckgo', query, country?, lang?, device? SERP / 排名追踪工作流 ~$0.001–0.003 per query
scrape_as_markdown url 通过解锁工具抓取单个页面并转为清晰的 markdown 1 credit per page
scrape_as_html url 你需要原始 HTML 自行解析 1 credit per page
web_data_<target> urls: str[] or params 预构建的结构化爬虫(amazon、linkedin、zillow 等) per-scraper pricing
scraping_browser_* url, actions 多步骤 / JS 密集型工作流 browser-session pricing

成本与限制

运行它的成本

API 配额
受账户额度限制;按计划的并发请求数
每次调用 Token 数
SERP:500–2000 个 token。爬取页面:1000–5000 个 token。
费用
按量付费;典型 SERP $0.001–$0.003,解锁约 $3 / 1000 页,预构建爬虫按 1000 条记录计价。
提示
积极缓存——大多数数据不会每小时变化。对于未受保护的目标使用更便宜的 fetch/Firecrawl。

安全

权限、密钥、影响范围

最小权限: 相关产品的区域级 API token
凭据存储: 环境变量中的 BRIGHTDATA_API_TOKEN
数据出站: 所有请求通过 Bright Data 的代理网络;他们能看到目标 URL 和响应
切勿授予: 用于日常爬取的管理员级别账户 token

故障排查

常见错误与修复

401 Invalid token

BRIGHTDATA_API_TOKEN 缺失/过期。在 dashboard 中重新生成。

验证: curl -H 'Authorization: Bearer $BRIGHTDATA_API_TOKEN' https://api.brightdata.com/zone/list
402 Insufficient credits

充值账户余额或减少查询量;在 dashboard 中检查消耗速率。

爬取任务成功但数据集为空

预构建爬虫的输入 schema 错误。阅读爬虫的文档页面了解必需字段。

目标网站仍被阻止,尽管使用了解锁工具

有些网站使用高级指纹识别;切换到带隐形的 Scraping Browser 或放弃该目标。

替代方案

Bright Data 对比其他方案

替代方案何时用它替代权衡
Firecrawl MCP未受保护的网站、通用爬取在敌对目标上失败
Apify MCP你想要更广泛的 Actor 市场和针对常见目标的更便宜定价每个 Actor 的代理网络质量有所不同
SerpAPI MCP你只需要 SERP,不需要完整爬取没有解锁工具 / 预构建爬虫

更多

资源

📖 阅读 GitHub 上的官方 README

🐙 查看未解决的 issue

🔍 浏览全部 400+ MCP 服务器和 Skills