/ Diretório / Playground / Jina AI
● Oficial jina-ai 🔑 Requer sua chave

Jina AI

por jina-ai · jina-ai/MCP

19 ferramentas para leitura web, busca (web, arXiv, SSRN, imagens), reranking, classificação e extração de PDF — infraestrutura de IA do Jina como MCP.

O MCP oficial do Jina AI expõe as APIs de Reader, Search e processamento. Use para extração limpa em markdown de qualquer URL, busca acadêmica em arXiv e SSRN, deduplicação de imagem/texto, reranking e extração de figuras/tabelas de PDF. Camada gratuita disponível; a chave API desbloqueia limites de taxa mais altos.

Por que usar

Principais recursos

Demo ao vivo

Como fica na prática

jina.replay ▶ pronto
0/0

Instalar

Escolha seu cliente

~/Library/Application Support/Claude/claude_desktop_config.json  · Windows: %APPDATA%\Claude\claude_desktop_config.json
{
  "mcpServers": {
    "jina": {
      "command": "npx",
      "args": [
        "-y",
        "mcp-remote",
        "https://mcp.jina.ai/sse"
      ]
    }
  }
}

Abra Claude Desktop → Settings → Developer → Edit Config. Reinicie após salvar.

~/.cursor/mcp.json · .cursor/mcp.json
{
  "mcpServers": {
    "jina": {
      "command": "npx",
      "args": [
        "-y",
        "mcp-remote",
        "https://mcp.jina.ai/sse"
      ]
    }
  }
}

Cursor usa o mesmo esquema mcpServers que o Claude Desktop. Config de projeto vence a global.

VS Code → Cline → MCP Servers → Edit
{
  "mcpServers": {
    "jina": {
      "command": "npx",
      "args": [
        "-y",
        "mcp-remote",
        "https://mcp.jina.ai/sse"
      ]
    }
  }
}

Clique no ícone MCP Servers na barra lateral do Cline, depois "Edit Configuration".

~/.codeium/windsurf/mcp_config.json
{
  "mcpServers": {
    "jina": {
      "command": "npx",
      "args": [
        "-y",
        "mcp-remote",
        "https://mcp.jina.ai/sse"
      ]
    }
  }
}

Mesmo formato do Claude Desktop. Reinicie o Windsurf para aplicar.

~/.continue/config.json
{
  "mcpServers": [
    {
      "name": "jina",
      "command": "npx",
      "args": [
        "-y",
        "mcp-remote",
        "https://mcp.jina.ai/sse"
      ]
    }
  ]
}

O Continue usa um array de objetos de servidor em vez de um map.

~/.config/zed/settings.json
{
  "context_servers": {
    "jina": {
      "command": {
        "path": "npx",
        "args": [
          "-y",
          "mcp-remote",
          "https://mcp.jina.ai/sse"
        ]
      }
    }
  }
}

Adicione em context_servers. Zed recarrega automaticamente ao salvar.

claude mcp add jina -- npx -y mcp-remote https://mcp.jina.ai/sse

Uma linha só. Verifique com claude mcp list. Remova com claude mcp remove.

Casos de uso

Usos do mundo real: Jina AI

Resumir artigos recentes do arXiv sobre um tópico

👤 Pesquisadores, engenheiros de ML atualizados ⏱ ~20 min intermediate

Quando usar: Você quer saber o que é novo no arXiv sobre seu tópico sem ler 50 abstracts.

Pré-requisitos
  • Chave Jina API opcional — jina.ai → dashboard → API key (camada gratuita funciona para uso leve)
Fluxo
  1. Buscar no arXiv
    Use search_arxiv para encontrar artigos dos últimos 30 dias sobre 'speculative decoding for LLM inference'. Retorne os 20 principais.✓ Copiado
    → Lista de artigos com títulos, autores, abstracts
  2. Reranking por relevância
    Use sort_by_relevance para fazer reranking em relação a esta consulta: 'practical speedups in production inference, not pure research'. Mantenha os 8 principais.✓ Copiado
    → Lista reranked
  3. Resumir cada um
    Para os 8 principais, execute extract_pdf no artigo, resuma em 3 tópicos: contribuição, método, speedup relatado. Saída como tabela markdown.✓ Copiado
    → Tabela de resumo pronta para digest

Resultado: Um digest de pesquisa semanal sobre seu tópico em 10 minutos.

Armadilhas
  • extract_pdf em cada resultado é caro — créditos se acumulam — Faça reranking primeiro para reduzir candidatos, apenas extraia os N principais
Combine com: notion

Converter um lote de URLs em markdown limpo para RAG

👤 Engenheiros de IA construindo sistemas de recuperação ⏱ ~15 min intermediate

Quando usar: Você tem uma lista de URLs para ingerir. Você quer markdown limpo, não HTML bruto ou um pipeline de análise.

Fluxo
  1. Ler URLs em paralelo
    Use parallel_read_url nesta lista [URLs]. Retorne markdown para cada um com URL original como chave.✓ Copiado
    → Markdown por URL
  2. Deduplicar quase-duplicatas
    Use deduplicate_strings com similaridade 0.9 para remover páginas quase-duplicadas (comum para docs espelhados).✓ Copiado
    → Conjunto deduplicado com IDs de páginas removidas
  3. Salvar em disco
    Salve cada um em ./knowledge/<slug>.md onde slug é derivado do caminho da URL.✓ Copiado
    → Arquivos markdown prontos para pipeline de embedding

Resultado: Um corpus limpo para sua etapa de embedding/indexação, sem escrever nenhum código de scraping.

Armadilhas
  • Páginas com paywall ou auth-wall de JS retornam em branco/lixo — Verifique alguns URLs — se o conteúdo for fino, recorra a playwright para fluxos de autenticação
Combine com: filesystem · firecrawl

Classificar um lote de texto com rótulos personalizados

👤 Analistas de dados, equipes de crescimento ⏱ ~15 min beginner

Quando usar: Você tem N itens de texto livre (tickets, avaliações, respostas de pesquisa) e quer categorizá-los em sua taxonomia.

Fluxo
  1. Definir rótulos
    Meus rótulos: ['bug', 'feature_request', 'question', 'praise', 'other']. Faça amostra dos primeiros 10 itens e verifique se os rótulos se adequam.✓ Copiado
    → Rótulos validados contra amostras
  2. Classificação em lote
    Use classify_text em todos os itens com esses rótulos. Retorne {id, text, label, confidence}.✓ Copiado
    → Dataset rotulado
  3. Revisar baixa confiança
    Sinalize itens onde confiança < 0.6 para revisão manual. Resuma: distribuição, outliers, rótulos provavelmente faltantes.✓ Copiado
    → Fila de revisão + feedback de taxonomia

Resultado: Um dataset rotulado sem ajustar um classificador ou escrever prompts por item.

Armadilhas
  • Rótulos são ambíguos e o classificador oscila em quase-empates — Faça os rótulos mutuamente exclusivos; se os itens abrangem categorias, permita saída multi-rótulo
Combine com: filesystem

Combinações

Combine com outros MCPs para 10× de alavancagem

jina + notion

Digest de pesquisa semanal postado no Notion

Procure no arXiv por novos artigos 'agentic RAG' esta semana. Resuma cada um e crie uma página Notion no banco de dados Research Digest.✓ Copiado
jina + firecrawl

Jina para páginas únicas, Firecrawl para crawls completos — mesma saída de markdown limpo

Para a lista de URLs, use parallel_read_url (Jina). Para os 3 sites de docs completos, use crawl do Firecrawl. Mescle em um diretório de conhecimento.✓ Copiado
jina + filesystem

Construir uma base de conhecimento markdown local a partir de uma lista de leitura

Leia cada URL em urls.txt, deduplicar, salve em ./knowledge/<hash>.md. Sobrescreva apenas se o conteúdo mudou.✓ Copiado

Ferramentas

O que este MCP expõe

FerramentaEntradasQuando chamarCusto
search_web query, num_results? Busca web geral créditos por chamada
search_arxiv / search_ssrn / search_bibtex / search_images / search_jina_blog query Buscas direcionadas créditos por chamada
parallel_search_web / parallel_search_arxiv / parallel_search_ssrn query[] Pesquisa multi-consulta em uma chamada créditos × N consultas
read_url url Extração limpa de conteúdo de qualquer URL créditos por página
parallel_read_url url[] Ingestão de página em lote créditos × N páginas
capture_screenshot_url url Captura visual de uma página créditos
sort_by_relevance documents, query Rerank após busca para qualidade créditos
classify_text texts, labels Classificação zero-shot créditos por texto
deduplicate_strings / deduplicate_images items, threshold Remover quase-duplicatas de um corpus créditos
extract_pdf url ou arquivo Obter conteúdo estruturado de PDFs créditos por PDF
expand_query / primer / guess_datetime_url utility Auxiliares em torno de ajuste de busca créditos (menor)

Custo e limites

O que custa rodar

Cota de API
Camada gratuita disponível com limites de taxa; camadas pagas escalam
Tokens por chamada
A saída é o custo maior — PDFs e dedupes podem retornar 10k+ tokens
Monetário
Créditos de API do Jina, normalmente medidos por solicitação. Veja jina.ai/pricing.
Dica
Faça reranking antes de extrair — extract_pdf é caro. Cache de saídas read_url localmente; a maioria das páginas não muda diariamente.

Segurança

Permissões, segredos, alcance

Armazenamento de credenciais: Variável de ambiente JINA_API_KEY (opcional para muitas ferramentas, necessária para uso pesado)
Saída de dados: Todas as chamadas para api.jina.ai / r.jina.ai / s.jina.ai — consultas e URLs visíveis para Jina

Solução de problemas

Erros comuns e correções

429 Too Many Requests

A camada gratuita tem limites de taxa baixos. Adicione uma variável de ambiente JINA_API_KEY e atualize em jina.ai para capacidade de disparo.

read_url returns empty markdown

A página pode ser auth-wall ou bloqueada por bot. Tente com User-Agent diferente via opções de ferramentas, ou recorra a playwright/firecrawl.

classify_text assigns everything to 'other'

Seus rótulos podem ser muito estreitos ou muito semelhantes. Adicione descrições de rótulos ('bug: user reports something broken') para melhor precisão zero-shot.

search_arxiv misses recent papers

O índice do arXiv pode atrasar; verifique com uma busca direta em arxiv.org. Use expand_query para ampliar termos.

Alternativas

Jina AI vs. outros

AlternativaQuando usarTroca
FirecrawlVocê precisa de crawls de site completo ou extração de esquema JSONFocado em crawl; o superpoder do Jina é a amplitude de ferramentas de processamento além de apenas leitura
Exa Search MCPVocê quer busca web semântica/neural como interface primáriaMais forte em recuperação semântica; mais estreito que a caixa de ferramentas do Jina
Brave Search MCPVocê quer índice de busca independente + privacidadeApenas busca, sem reader/rerank/classify

Mais

Recursos

📖 Leia o README oficial no GitHub

🐙 Ver issues abertas

🔍 Ver todos os 400+ servidores MCP e Skills