/ 目录 / 演练场 / Jina AI
● 官方 jina-ai 🔑 需要你的密钥

Jina AI

作者 jina-ai · jina-ai/MCP

19 个工具用于网页阅读、搜索(网页、arXiv、SSRN、图片)、重排、分类和 PDF 提取 — Jina AI 基础设施的 MCP 接口。

Jina AI 官方 MCP,暴露了他们的 Reader、Search 和处理 API。用于从任意 URL 提取干净的 markdown、在 arXiv 和 SSRN 上进行学术搜索、图片和文本去重、重排和 PDF 图表提取。免费层可用;API key 解锁更高速率限制。

为什么要用

核心特性

实时演示

实际使用效果

jina.replay ▶ 就绪
0/0

安装

选择你的客户端

~/Library/Application Support/Claude/claude_desktop_config.json  · Windows: %APPDATA%\Claude\claude_desktop_config.json
{
  "mcpServers": {
    "jina": {
      "command": "npx",
      "args": [
        "-y",
        "mcp-remote",
        "https://mcp.jina.ai/sse"
      ]
    }
  }
}

打开 Claude Desktop → Settings → Developer → Edit Config。保存后重启应用。

~/.cursor/mcp.json · .cursor/mcp.json
{
  "mcpServers": {
    "jina": {
      "command": "npx",
      "args": [
        "-y",
        "mcp-remote",
        "https://mcp.jina.ai/sse"
      ]
    }
  }
}

Cursor 使用与 Claude Desktop 相同的 mcpServers 格式。项目级配置优先于全局。

VS Code → Cline → MCP Servers → Edit
{
  "mcpServers": {
    "jina": {
      "command": "npx",
      "args": [
        "-y",
        "mcp-remote",
        "https://mcp.jina.ai/sse"
      ]
    }
  }
}

点击 Cline 侧栏中的 MCP Servers 图标,然后选 "Edit Configuration"。

~/.codeium/windsurf/mcp_config.json
{
  "mcpServers": {
    "jina": {
      "command": "npx",
      "args": [
        "-y",
        "mcp-remote",
        "https://mcp.jina.ai/sse"
      ]
    }
  }
}

格式与 Claude Desktop 相同。重启 Windsurf 生效。

~/.continue/config.json
{
  "mcpServers": [
    {
      "name": "jina",
      "command": "npx",
      "args": [
        "-y",
        "mcp-remote",
        "https://mcp.jina.ai/sse"
      ]
    }
  ]
}

Continue 使用服务器对象数组,而非映射。

~/.config/zed/settings.json
{
  "context_servers": {
    "jina": {
      "command": {
        "path": "npx",
        "args": [
          "-y",
          "mcp-remote",
          "https://mcp.jina.ai/sse"
        ]
      }
    }
  }
}

加入 context_servers。Zed 保存后热重载。

claude mcp add jina -- npx -y mcp-remote https://mcp.jina.ai/sse

一行命令搞定。用 claude mcp list 验证,claude mcp remove 卸载。

使用场景

实战用法: Jina AI

汇总某个话题的最新 arXiv 论文

👤 研究人员、保持前沿的 ML 工程师 ⏱ ~20 min intermediate

何时使用: 你想了解你的话题在 arXiv 上有什么新东西,但又不想读 50 个摘要。

前置条件
  • 可选的 Jina API key — jina.ai → dashboard → API key(免费层可用于轻度使用)
步骤
  1. 搜索 arXiv
    使用 search_arxiv 查找过去 30 天关于 'speculative decoding for LLM inference' 的论文。返回前 20 篇。✓ 已复制
    → 包含标题、作者、摘要的论文列表
  2. 按相关性重排
    使用 sort_by_relevance 针对此查询重排:'practical speedups in production inference, not pure research'。保留前 8 篇。✓ 已复制
    → 重排后的列表
  3. 总结每一篇
    对于前 8 篇,提取 PDF,用 3 个要点总结:贡献、方法、报告的加速。输出为 markdown 表格。✓ 已复制
    → 可用于汇总的总结表格

结果: 10 分钟内完成你的话题的每周研究汇总。

注意事项
  • 对每个结果调用 extract_pdf 很昂贵 — 额度会堆积 — 先重排来削减候选,只提取前 N 个
搭配使用: notion

将一批 URL 转换为干净的 markdown 用于 RAG

👤 构建检索系统的 AI 工程师 ⏱ ~15 min intermediate

何时使用: 你有一列 URL 要摄入。你想要干净的 markdown,而不是原始 HTML 或解析管道。

步骤
  1. 并行读取 URL
    对这个列表 [URLs] 使用 parallel_read_url。返回每个 URL 对应的 markdown,以原始 URL 为键。✓ 已复制
    → 每个 URL 对应的 Markdown
  2. 去重接近重复的页面
    使用 deduplicate_strings,相似度为 0.9,删除接近重复的页面(在镜像文档中常见)。✓ 已复制
    → 去重后的集合,包含删除页面的 ID
  3. 保存到磁盘
    将每个保存到 ./knowledge/<slug>.md,其中 slug 由 URL 路径派生。✓ 已复制
    → 为嵌入管道准备好的 Markdown 文件

结果: 用于嵌入/索引步骤的干净语料库,无需编写任何爬取代码。

注意事项
  • 付费页面或需要 JS 认证的页面返回空白/垃圾内容 — 抽查几个 URL — 如果内容很少,改为使用 playwright 处理认证流程
搭配使用: filesystem · firecrawl

用自定义标签对一批文本进行分类

👤 数据分析师、增长团队 ⏱ ~15 min beginner

何时使用: 你有 N 个自由文本项目(工单、评论、调查回复),想将它们分组到你的分类法中。

步骤
  1. 定义标签
    我的标签:['bug', 'feature_request', 'question', 'praise', 'other']。抽样前 10 个项目并检查标签是否合适。✓ 已复制
    → 标签已针对样本验证
  2. 批量分类
    对所有项目使用 classify_text,使用那些标签。返回 {id, text, label, confidence}。✓ 已复制
    → 已标记的数据集
  3. 审查低置信度的结果
    标记置信度 < 0.6 的项目进行手动审查。总结:分布、异常值、可能缺失的标签。✓ 已复制
    → 审查队列 + 分类法反馈

结果: 一个已标记的数据集,无需微调分类器或为每个项目编写提示。

注意事项
  • 标签不明确,分类器在接近平局时摇摆不定 — 使标签互相排斥;如果项目跨越类别,允许多标签输出
搭配使用: filesystem

组合

与其他 MCP 搭配,撬动十倍杠杆

jina + notion

每周研究汇总发布到 Notion

搜索本周 arXiv 上新的 'agentic RAG' 论文。总结每一篇并在研究汇总数据库中创建 Notion 页面。✓ 已复制
jina + firecrawl

Jina 用于单个页面,Firecrawl 用于完整爬取 — 相同的干净 markdown 输出

对于 URL 列表,使用 parallel_read_url(Jina)。对于 3 个完整文档网站,使用 Firecrawl 爬取。合并到一个知识目录。✓ 已复制
jina + filesystem

从阅读列表构建本地 markdown 知识库

读取 urls.txt 中的每个 URL,去重,保存到 ./knowledge/<hash>.md。仅在内容更改时覆盖。✓ 已复制

工具

此 MCP 暴露的能力

工具输入参数何时调用成本
search_web query, num_results? 通用网页搜索 credits per call
search_arxiv / search_ssrn / search_bibtex / search_images / search_jina_blog query 针对性搜索 credits per call
parallel_search_web / parallel_search_arxiv / parallel_search_ssrn query[] 在一次调用中进行多查询研究 credits × N queries
read_url url 从任意 URL 提取干净的内容 credits per page
parallel_read_url url[] 批量网页摄入 credits × N pages
capture_screenshot_url url 页面的视觉快照 credits
sort_by_relevance documents, query 搜索后重排以获得质量 credits
classify_text texts, labels 零样本分类 credits per text
deduplicate_strings / deduplicate_images items, threshold 从语料库中删除接近重复的内容 credits
extract_pdf url or file 从 PDF 获取结构化内容 credits per PDF
expand_query / primer / guess_datetime_url utility 搜索调优助手 credits (minor)

成本与限制

运行它的成本

API 配额
免费层可用,带有速率限制;付费层按规模计费
每次调用 Token 数
输出是更大的成本 — PDF 和去重可能返回 10k+ 个 token
费用
Jina API 额度,通常按请求计量。参见 jina.ai/pricing。
提示
提取前重排 — extract_pdf 很昂贵。本地缓存 read_url 输出;大多数页面不会每天更改。

安全

权限、密钥、影响范围

凭据存储: JINA_API_KEY 环境变量(对许多工具可选,重度使用时必需)
数据出站: 所有调用到 api.jina.ai / r.jina.ai / s.jina.ai — 查询和 URL 对 Jina 可见

故障排查

常见错误与修复

429 Too Many Requests

免费层的速率限制很低。添加 JINA_API_KEY 环境变量并在 jina.ai 升级以获得突发容量。

read_url 返回空 markdown

页面可能受身份验证保护或被机器人阻止。尝试通过工具选项使用不同的 User-Agent,或改为使用 playwright/firecrawl。

classify_text 将所有内容分配给 'other'

你的标签可能太狭隘或太相似。添加标签描述('bug: user reports something broken')以获得更好的零样本准确性。

search_arxiv 遗漏了最近的论文

arXiv 索引可能滞后;用直接的 arxiv.org 搜索交叉检查。使用 expand_query 扩大术语。

替代方案

Jina AI 对比其他方案

替代方案何时用它替代权衡
Firecrawl你需要完整网站爬取或 JSON-schema 提取以爬取为中心;Jina 的超能力是超越仅阅读之外的广泛处理工具
Exa Search MCP你想要语义/神经网络搜索作为主要界面在语义检索方面更强;比 Jina 的工具箱更窄
Brave Search MCP你想要独立搜索索引 + 隐私仅搜索,无阅读/重排/分类

更多

资源

📖 阅读 GitHub 上的官方 README

🐙 查看未解决的 issue

🔍 浏览全部 400+ MCP 服务器和 Skills