Jina AI MCP — Instalar & Demo ao vivo

Por que usar

Principais recursos

Oficial — MCP oficial do Jina AI
read_url retorna markdown limpo — processa sites renderizados em JS
Busca em web, arXiv, SSRN, imagens e BibTeX em uma única interface
Ferramentas de processamento: rerank, classify, dedupe (texto e imagens), extract_pdf

Demo ao vivo

Como fica na prática

jina.replay ▶ pronto

0/0

Instalar

Escolha seu cliente

~/Library/Application Support/Claude/claude_desktop_config.json · Windows: %APPDATA%\Claude\claude_desktop_config.json

{
  "mcpServers": {
    "jina": {
      "command": "npx",
      "args": [
        "-y",
        "mcp-remote",
        "https://mcp.jina.ai/sse"
      ]
    }
  }
}

Abra Claude Desktop → Settings → Developer → Edit Config. Reinicie após salvar.

~/.cursor/mcp.json · .cursor/mcp.json

{
  "mcpServers": {
    "jina": {
      "command": "npx",
      "args": [
        "-y",
        "mcp-remote",
        "https://mcp.jina.ai/sse"
      ]
    }
  }
}

Cursor usa o mesmo esquema mcpServers que o Claude Desktop. Config de projeto vence a global.

VS Code → Cline → MCP Servers → Edit

{
  "mcpServers": {
    "jina": {
      "command": "npx",
      "args": [
        "-y",
        "mcp-remote",
        "https://mcp.jina.ai/sse"
      ]
    }
  }
}

Clique no ícone MCP Servers na barra lateral do Cline, depois "Edit Configuration".

~/.codeium/windsurf/mcp_config.json

{
  "mcpServers": {
    "jina": {
      "command": "npx",
      "args": [
        "-y",
        "mcp-remote",
        "https://mcp.jina.ai/sse"
      ]
    }
  }
}

Mesmo formato do Claude Desktop. Reinicie o Windsurf para aplicar.

~/.continue/config.json

{
  "mcpServers": [
    {
      "name": "jina",
      "command": "npx",
      "args": [
        "-y",
        "mcp-remote",
        "https://mcp.jina.ai/sse"
      ]
    }
  ]
}

O Continue usa um array de objetos de servidor em vez de um map.

~/.config/zed/settings.json

{
  "context_servers": {
    "jina": {
      "command": {
        "path": "npx",
        "args": [
          "-y",
          "mcp-remote",
          "https://mcp.jina.ai/sse"
        ]
      }
    }
  }
}

Adicione em context_servers. Zed recarrega automaticamente ao salvar.

claude mcp add jina -- npx -y mcp-remote https://mcp.jina.ai/sse

Uma linha só. Verifique com claude mcp list. Remova com claude mcp remove.

Casos de uso

Usos do mundo real: Jina AI

Resumir artigos recentes do arXiv sobre um tópico

👤 Pesquisadores, engenheiros de ML atualizados ⏱ ~20 min intermediate

Quando usar: Você quer saber o que é novo no arXiv sobre seu tópico sem ler 50 abstracts.

Pré-requisitos

Chave Jina API opcional — jina.ai → dashboard → API key (camada gratuita funciona para uso leve)

Fluxo

Buscar no arXiv

Use search_arxiv para encontrar artigos dos últimos 30 dias sobre 'speculative decoding for LLM inference'. Retorne os 20 principais.✓ Copiado

→ Lista de artigos com títulos, autores, abstracts
Reranking por relevância

Use sort_by_relevance para fazer reranking em relação a esta consulta: 'practical speedups in production inference, not pure research'. Mantenha os 8 principais.✓ Copiado

→ Lista reranked
Resumir cada um

Para os 8 principais, execute extract_pdf no artigo, resuma em 3 tópicos: contribuição, método, speedup relatado. Saída como tabela markdown.✓ Copiado

→ Tabela de resumo pronta para digest

Resultado: Um digest de pesquisa semanal sobre seu tópico em 10 minutos.

Armadilhas

extract_pdf em cada resultado é caro — créditos se acumulam — Faça reranking primeiro para reduzir candidatos, apenas extraia os N principais

Combine com: notion

Converter um lote de URLs em markdown limpo para RAG

👤 Engenheiros de IA construindo sistemas de recuperação ⏱ ~15 min intermediate

Quando usar: Você tem uma lista de URLs para ingerir. Você quer markdown limpo, não HTML bruto ou um pipeline de análise.

Fluxo

Ler URLs em paralelo

Use parallel_read_url nesta lista [URLs]. Retorne markdown para cada um com URL original como chave.✓ Copiado

→ Markdown por URL
Deduplicar quase-duplicatas

Use deduplicate_strings com similaridade 0.9 para remover páginas quase-duplicadas (comum para docs espelhados).✓ Copiado

→ Conjunto deduplicado com IDs de páginas removidas
Salvar em disco

Salve cada um em ./knowledge/<slug>.md onde slug é derivado do caminho da URL.✓ Copiado

→ Arquivos markdown prontos para pipeline de embedding

Resultado: Um corpus limpo para sua etapa de embedding/indexação, sem escrever nenhum código de scraping.

Armadilhas

Páginas com paywall ou auth-wall de JS retornam em branco/lixo — Verifique alguns URLs — se o conteúdo for fino, recorra a playwright para fluxos de autenticação

Combine com: filesystem · firecrawl

Classificar um lote de texto com rótulos personalizados

👤 Analistas de dados, equipes de crescimento ⏱ ~15 min beginner

Quando usar: Você tem N itens de texto livre (tickets, avaliações, respostas de pesquisa) e quer categorizá-los em sua taxonomia.

Fluxo

Definir rótulos

Meus rótulos: ['bug', 'feature_request', 'question', 'praise', 'other']. Faça amostra dos primeiros 10 itens e verifique se os rótulos se adequam.✓ Copiado

→ Rótulos validados contra amostras
Classificação em lote

Use classify_text em todos os itens com esses rótulos. Retorne {id, text, label, confidence}.✓ Copiado

→ Dataset rotulado
Revisar baixa confiança

Sinalize itens onde confiança < 0.6 para revisão manual. Resuma: distribuição, outliers, rótulos provavelmente faltantes.✓ Copiado

→ Fila de revisão + feedback de taxonomia

Resultado: Um dataset rotulado sem ajustar um classificador ou escrever prompts por item.

Armadilhas

Rótulos são ambíguos e o classificador oscila em quase-empates — Faça os rótulos mutuamente exclusivos; se os itens abrangem categorias, permita saída multi-rótulo

Combine com: filesystem

Combinações

Combine com outros MCPs para 10× de alavancagem

jina + notion

Digest de pesquisa semanal postado no Notion

Procure no arXiv por novos artigos 'agentic RAG' esta semana. Resuma cada um e crie uma página Notion no banco de dados Research Digest.✓ Copiado

jina + firecrawl

Jina para páginas únicas, Firecrawl para crawls completos — mesma saída de markdown limpo

Para a lista de URLs, use parallel_read_url (Jina). Para os 3 sites de docs completos, use crawl do Firecrawl. Mescle em um diretório de conhecimento.✓ Copiado

jina + filesystem

Construir uma base de conhecimento markdown local a partir de uma lista de leitura

Leia cada URL em urls.txt, deduplicar, salve em ./knowledge/<hash>.md. Sobrescreva apenas se o conteúdo mudou.✓ Copiado

Ferramentas

O que este MCP expõe

Ferramenta	Entradas	Quando chamar	Custo
search_web	query, num_results?	Busca web geral	créditos por chamada
search_arxiv / search_ssrn / search_bibtex / search_images / search_jina_blog	query	Buscas direcionadas	créditos por chamada
parallel_search_web / parallel_search_arxiv / parallel_search_ssrn	query[]	Pesquisa multi-consulta em uma chamada	créditos × N consultas
read_url	url	Extração limpa de conteúdo de qualquer URL	créditos por página
parallel_read_url	url[]	Ingestão de página em lote	créditos × N páginas
capture_screenshot_url	url	Captura visual de uma página	créditos
sort_by_relevance	documents, query	Rerank após busca para qualidade	créditos
classify_text	texts, labels	Classificação zero-shot	créditos por texto
deduplicate_strings / deduplicate_images	items, threshold	Remover quase-duplicatas de um corpus	créditos
extract_pdf	url ou arquivo	Obter conteúdo estruturado de PDFs	créditos por PDF
expand_query / primer / guess_datetime_url	utility	Auxiliares em torno de ajuste de busca	créditos (menor)

Custo e limites

O que custa rodar

Cota de API: Camada gratuita disponível com limites de taxa; camadas pagas escalam
Tokens por chamada: A saída é o custo maior — PDFs e dedupes podem retornar 10k+ tokens
Monetário: Créditos de API do Jina, normalmente medidos por solicitação. Veja jina.ai/pricing.
Dica: Faça reranking antes de extrair — extract_pdf é caro. Cache de saídas read_url localmente; a maioria das páginas não muda diariamente.

Segurança

Permissões, segredos, alcance

Armazenamento de credenciais: Variável de ambiente JINA_API_KEY (opcional para muitas ferramentas, necessária para uso pesado)

Saída de dados: Todas as chamadas para api.jina.ai / r.jina.ai / s.jina.ai — consultas e URLs visíveis para Jina

Solução de problemas

Erros comuns e correções

429 Too Many Requests

A camada gratuita tem limites de taxa baixos. Adicione uma variável de ambiente JINA_API_KEY e atualize em jina.ai para capacidade de disparo.

read_url returns empty markdown

A página pode ser auth-wall ou bloqueada por bot. Tente com User-Agent diferente via opções de ferramentas, ou recorra a playwright/firecrawl.

classify_text assigns everything to 'other'

Seus rótulos podem ser muito estreitos ou muito semelhantes. Adicione descrições de rótulos ('bug: user reports something broken') para melhor precisão zero-shot.

search_arxiv misses recent papers

O índice do arXiv pode atrasar; verifique com uma busca direta em arxiv.org. Use expand_query para ampliar termos.

Alternativas

Jina AI vs. outros

Alternativa	Quando usar	Troca
Firecrawl	Você precisa de crawls de site completo ou extração de esquema JSON	Focado em crawl; o superpoder do Jina é a amplitude de ferramentas de processamento além de apenas leitura
Exa Search MCP	Você quer busca web semântica/neural como interface primária	Mais forte em recuperação semântica; mais estreito que a caixa de ferramentas do Jina
Brave Search MCP	Você quer índice de busca independente + privacidade	Apenas busca, sem reader/rerank/classify

Mais

Recursos

📖 Leia o README oficial no GitHub

🐙 Ver issues abertas

🔍 Ver todos os 400+ servidores MCP e Skills