Jina AI MCP — 安装 & 实时演示

为什么要用

核心特性

官方一方 — Jina AI 官方 MCP
read_url 返回干净的 markdown — 处理 JS 渲染的网站
在一个接口中搜索网页、arXiv、SSRN、图片和 BibTeX
处理工具：重排、分类、去重（文本和图片）、提取 PDF

实时演示

实际使用效果

jina.replay ▶ 就绪

0/0

安装

选择你的客户端

~/Library/Application Support/Claude/claude_desktop_config.json · Windows: %APPDATA%\Claude\claude_desktop_config.json

{
  "mcpServers": {
    "jina": {
      "command": "npx",
      "args": [
        "-y",
        "mcp-remote",
        "https://mcp.jina.ai/sse"
      ]
    }
  }
}

打开 Claude Desktop → Settings → Developer → Edit Config。保存后重启应用。

~/.cursor/mcp.json · .cursor/mcp.json

{
  "mcpServers": {
    "jina": {
      "command": "npx",
      "args": [
        "-y",
        "mcp-remote",
        "https://mcp.jina.ai/sse"
      ]
    }
  }
}

Cursor 使用与 Claude Desktop 相同的 mcpServers 格式。项目级配置优先于全局。

VS Code → Cline → MCP Servers → Edit

{
  "mcpServers": {
    "jina": {
      "command": "npx",
      "args": [
        "-y",
        "mcp-remote",
        "https://mcp.jina.ai/sse"
      ]
    }
  }
}

点击 Cline 侧栏中的 MCP Servers 图标，然后选 "Edit Configuration"。

~/.codeium/windsurf/mcp_config.json

{
  "mcpServers": {
    "jina": {
      "command": "npx",
      "args": [
        "-y",
        "mcp-remote",
        "https://mcp.jina.ai/sse"
      ]
    }
  }
}

格式与 Claude Desktop 相同。重启 Windsurf 生效。

~/.continue/config.json

{
  "mcpServers": [
    {
      "name": "jina",
      "command": "npx",
      "args": [
        "-y",
        "mcp-remote",
        "https://mcp.jina.ai/sse"
      ]
    }
  ]
}

Continue 使用服务器对象数组，而非映射。

~/.config/zed/settings.json

{
  "context_servers": {
    "jina": {
      "command": {
        "path": "npx",
        "args": [
          "-y",
          "mcp-remote",
          "https://mcp.jina.ai/sse"
        ]
      }
    }
  }
}

加入 context_servers。Zed 保存后热重载。

claude mcp add jina -- npx -y mcp-remote https://mcp.jina.ai/sse

一行命令搞定。用 claude mcp list 验证，claude mcp remove 卸载。

使用场景

实战用法： Jina AI

汇总某个话题的最新 arXiv 论文

👤 研究人员、保持前沿的 ML 工程师 ⏱ ~20 min intermediate

何时使用： 你想了解你的话题在 arXiv 上有什么新东西，但又不想读 50 个摘要。

前置条件

可选的 Jina API key — jina.ai → dashboard → API key（免费层可用于轻度使用）

步骤

搜索 arXiv

使用 search_arxiv 查找过去 30 天关于 'speculative decoding for LLM inference' 的论文。返回前 20 篇。✓ 已复制

→ 包含标题、作者、摘要的论文列表
按相关性重排

使用 sort_by_relevance 针对此查询重排：'practical speedups in production inference, not pure research'。保留前 8 篇。✓ 已复制

→ 重排后的列表
总结每一篇

对于前 8 篇，提取 PDF，用 3 个要点总结：贡献、方法、报告的加速。输出为 markdown 表格。✓ 已复制

→ 可用于汇总的总结表格

结果： 10 分钟内完成你的话题的每周研究汇总。

注意事项

对每个结果调用 extract_pdf 很昂贵 — 额度会堆积 — 先重排来削减候选，只提取前 N 个

搭配使用： notion

将一批 URL 转换为干净的 markdown 用于 RAG

👤 构建检索系统的 AI 工程师 ⏱ ~15 min intermediate

何时使用： 你有一列 URL 要摄入。你想要干净的 markdown，而不是原始 HTML 或解析管道。

步骤

并行读取 URL

对这个列表 [URLs] 使用 parallel_read_url。返回每个 URL 对应的 markdown，以原始 URL 为键。✓ 已复制

→ 每个 URL 对应的 Markdown
去重接近重复的页面

使用 deduplicate_strings，相似度为 0.9，删除接近重复的页面（在镜像文档中常见）。✓ 已复制

→ 去重后的集合，包含删除页面的 ID
保存到磁盘

将每个保存到 ./knowledge/<slug>.md，其中 slug 由 URL 路径派生。✓ 已复制

→ 为嵌入管道准备好的 Markdown 文件

结果： 用于嵌入/索引步骤的干净语料库，无需编写任何爬取代码。

注意事项

付费页面或需要 JS 认证的页面返回空白/垃圾内容 — 抽查几个 URL — 如果内容很少，改为使用 playwright 处理认证流程

搭配使用： filesystem · firecrawl

用自定义标签对一批文本进行分类

👤 数据分析师、增长团队 ⏱ ~15 min beginner

何时使用： 你有 N 个自由文本项目（工单、评论、调查回复），想将它们分组到你的分类法中。

步骤

定义标签

我的标签：['bug', 'feature_request', 'question', 'praise', 'other']。抽样前 10 个项目并检查标签是否合适。✓ 已复制

→ 标签已针对样本验证
批量分类

对所有项目使用 classify_text，使用那些标签。返回 {id, text, label, confidence}。✓ 已复制

→ 已标记的数据集
审查低置信度的结果

标记置信度 < 0.6 的项目进行手动审查。总结：分布、异常值、可能缺失的标签。✓ 已复制

→ 审查队列 + 分类法反馈

结果： 一个已标记的数据集，无需微调分类器或为每个项目编写提示。

注意事项

标签不明确，分类器在接近平局时摇摆不定 — 使标签互相排斥；如果项目跨越类别，允许多标签输出

搭配使用： filesystem

组合

与其他 MCP 搭配，撬动十倍杠杆

jina + notion

每周研究汇总发布到 Notion

搜索本周 arXiv 上新的 'agentic RAG' 论文。总结每一篇并在研究汇总数据库中创建 Notion 页面。✓ 已复制

jina + firecrawl

Jina 用于单个页面，Firecrawl 用于完整爬取 — 相同的干净 markdown 输出

对于 URL 列表，使用 parallel_read_url（Jina）。对于 3 个完整文档网站，使用 Firecrawl 爬取。合并到一个知识目录。✓ 已复制

jina + filesystem

从阅读列表构建本地 markdown 知识库

读取 urls.txt 中的每个 URL，去重，保存到 ./knowledge/<hash>.md。仅在内容更改时覆盖。✓ 已复制

工具

此 MCP 暴露的能力

工具	输入参数	何时调用	成本
search_web	query, num_results?	通用网页搜索	credits per call
search_arxiv / search_ssrn / search_bibtex / search_images / search_jina_blog	query	针对性搜索	credits per call
parallel_search_web / parallel_search_arxiv / parallel_search_ssrn	query[]	在一次调用中进行多查询研究	credits × N queries
read_url	url	从任意 URL 提取干净的内容	credits per page
parallel_read_url	url[]	批量网页摄入	credits × N pages
capture_screenshot_url	url	页面的视觉快照	credits
sort_by_relevance	documents, query	搜索后重排以获得质量	credits
classify_text	texts, labels	零样本分类	credits per text
deduplicate_strings / deduplicate_images	items, threshold	从语料库中删除接近重复的内容	credits
extract_pdf	url or file	从 PDF 获取结构化内容	credits per PDF
expand_query / primer / guess_datetime_url	utility	搜索调优助手	credits (minor)

成本与限制

运行它的成本

API 配额: 免费层可用，带有速率限制；付费层按规模计费
每次调用 Token 数: 输出是更大的成本 — PDF 和去重可能返回 10k+ 个 token
费用: Jina API 额度，通常按请求计量。参见 jina.ai/pricing。
提示: 提取前重排 — extract_pdf 很昂贵。本地缓存 read_url 输出；大多数页面不会每天更改。

安全

权限、密钥、影响范围

凭据存储： JINA_API_KEY 环境变量（对许多工具可选，重度使用时必需）

数据出站： 所有调用到 api.jina.ai / r.jina.ai / s.jina.ai — 查询和 URL 对 Jina 可见

故障排查

常见错误与修复

429 Too Many Requests

免费层的速率限制很低。添加 JINA_API_KEY 环境变量并在 jina.ai 升级以获得突发容量。

read_url 返回空 markdown

页面可能受身份验证保护或被机器人阻止。尝试通过工具选项使用不同的 User-Agent，或改为使用 playwright/firecrawl。

classify_text 将所有内容分配给 'other'

你的标签可能太狭隘或太相似。添加标签描述（'bug: user reports something broken'）以获得更好的零样本准确性。

search_arxiv 遗漏了最近的论文

arXiv 索引可能滞后；用直接的 arxiv.org 搜索交叉检查。使用 expand_query 扩大术语。

替代方案

Jina AI 对比其他方案

替代方案	何时用它替代	权衡
Firecrawl	你需要完整网站爬取或 JSON-schema 提取	以爬取为中心；Jina 的超能力是超越仅阅读之外的广泛处理工具
Exa Search MCP	你想要语义/神经网络搜索作为主要界面	在语义检索方面更强；比 Jina 的工具箱更窄
Brave Search MCP	你想要独立搜索索引 + 隐私	仅搜索，无阅读/重排/分类

Jina AI

为什么要用

核心特性

实时演示

实际使用效果

安装

选择你的客户端

使用场景

实战用法： Jina AI

汇总某个话题的最新 arXiv 论文

前置条件

步骤

注意事项

将一批 URL 转换为干净的 markdown 用于 RAG

步骤

注意事项

用自定义标签对一批文本进行分类

步骤

注意事项

组合

与其他 MCP 搭配，撬动十倍杠杆

工具

此 MCP 暴露的能力

成本与限制

运行它的成本

安全

权限、密钥、影响范围

故障排查

常见错误与修复

替代方案

Jina AI 对比其他方案

更多

资源