Jina AI MCP — Instalar & Demo en vivo

Por qué usarlo

Características clave

De primer nivel — MCP oficial de Jina AI
read_url retorna markdown limpio — maneja sitios renderizados con JS
Busca en web, arXiv, SSRN, imágenes y BibTeX en una sola interfaz
Herramientas de procesamiento: rerank, classify, dedupe (texto e imágenes), extract_pdf

Demo en vivo

Cómo se ve en la práctica

jina.replay ▶ listo

0/0

Instalar

Elige tu cliente

~/Library/Application Support/Claude/claude_desktop_config.json · Windows: %APPDATA%\Claude\claude_desktop_config.json

{
  "mcpServers": {
    "jina": {
      "command": "npx",
      "args": [
        "-y",
        "mcp-remote",
        "https://mcp.jina.ai/sse"
      ]
    }
  }
}

Abre Claude Desktop → Settings → Developer → Edit Config. Reinicia después de guardar.

~/.cursor/mcp.json · .cursor/mcp.json

{
  "mcpServers": {
    "jina": {
      "command": "npx",
      "args": [
        "-y",
        "mcp-remote",
        "https://mcp.jina.ai/sse"
      ]
    }
  }
}

Cursor usa el mismo esquema mcpServers que Claude Desktop. La configuración del proyecto prevalece sobre la global.

VS Code → Cline → MCP Servers → Edit

{
  "mcpServers": {
    "jina": {
      "command": "npx",
      "args": [
        "-y",
        "mcp-remote",
        "https://mcp.jina.ai/sse"
      ]
    }
  }
}

Haz clic en el icono MCP Servers de la barra lateral de Cline y luego en "Edit Configuration".

~/.codeium/windsurf/mcp_config.json

{
  "mcpServers": {
    "jina": {
      "command": "npx",
      "args": [
        "-y",
        "mcp-remote",
        "https://mcp.jina.ai/sse"
      ]
    }
  }
}

Mismo formato que Claude Desktop. Reinicia Windsurf para aplicar.

~/.continue/config.json

{
  "mcpServers": [
    {
      "name": "jina",
      "command": "npx",
      "args": [
        "-y",
        "mcp-remote",
        "https://mcp.jina.ai/sse"
      ]
    }
  ]
}

Continue usa un array de objetos de servidor en lugar de un mapa.

~/.config/zed/settings.json

{
  "context_servers": {
    "jina": {
      "command": {
        "path": "npx",
        "args": [
          "-y",
          "mcp-remote",
          "https://mcp.jina.ai/sse"
        ]
      }
    }
  }
}

Añádelo a context_servers. Zed recarga en caliente al guardar.

claude mcp add jina -- npx -y mcp-remote https://mcp.jina.ai/sse

Un solo comando. Verifica con claude mcp list. Quita con claude mcp remove.

Casos de uso

Usos del mundo real: Jina AI

Resume artículos recientes de arXiv sobre un tema

👤 Investigadores, ingenieros de ML mantenerse actualizado ⏱ ~20 min intermediate

Cuándo usarlo: Quieres saber qué hay nuevo en arXiv sobre tu tema sin leer 50 resúmenes.

Requisitos previos

Clave API de Jina opcional — jina.ai → dashboard → API key (la capa gratuita funciona para uso ligero)

Flujo

Buscar en arXiv

Usa search_arxiv para encontrar artículos de los últimos 30 días sobre 'speculative decoding for LLM inference'. Retorna los top 20.✓ Copiado

→ Lista de artículos con títulos, autores, resúmenes
Re-clasificar por relevancia

Usa sort_by_relevance para re-clasificar contra esta consulta: 'practical speedups in production inference, not pure research'. Mantén los top 8.✓ Copiado

→ Lista re-clasificada
Resume cada uno

Para los top 8, extrae extract_pdf el artículo, resume en 3 puntos: contribución, método, speedup reportado. Retorna como tabla markdown.✓ Copiado

→ Tabla de resumen lista para el digest

Resultado: Un digest de investigación semanal sobre tu tema en 10 minutos.

Errores comunes

extract_pdf en cada resultado es costoso — los créditos se acumulan — Re-clasifica primero para cortar candidatos, solo extrae los top N

Combinar con: notion

Convierte un lote de URLs a markdown limpio para RAG

👤 Ingenieros de IA construyendo sistemas de recuperación ⏱ ~15 min intermediate

Cuándo usarlo: Tienes una lista de URLs para ingerir. Quieres markdown limpio, no HTML crudo ni un pipeline de parsing.

Flujo

Lee URLs en paralelo

Usa parallel_read_url en esta lista [URLs]. Retorna markdown para cada una con la URL original como clave.✓ Copiado

→ Markdown por URL
Deduplica casi-duplicados

Usa deduplicate_strings a 0.9 de similitud para descartar páginas casi-duplicadas (común en documentos espejo).✓ Copiado

→ Conjunto deduplicado con IDs de páginas descartadas
Guarda en disco

Guarda cada una en ./knowledge/<slug>.md donde slug se deriva de la ruta de la URL.✓ Copiado

→ Archivos markdown listos para el pipeline de embedding

Resultado: Un corpus limpio para tu paso de embedding/indexado, sin escribir código de scraping.

Errores comunes

Páginas con paywall o JS-auth-walled retornan en blanco/basura — Verifica algunos URLs — si el contenido es escaso, recurre a playwright para flujos de autenticación

Combinar con: filesystem · firecrawl

Clasifica un lote de texto con etiquetas personalizadas

👤 Analistas de datos, equipos de crecimiento ⏱ ~15 min beginner

Cuándo usarlo: Tienes N elementos de texto libre (tickets, reseñas, respuestas de encuestas) y quieres distribuirlos en tu taxonomía.

Flujo

Define etiquetas

Mis etiquetas: ['bug', 'feature_request', 'question', 'praise', 'other']. Muestrea los primeros 10 elementos y verifica que las etiquetas se ajusten.✓ Copiado

→ Etiquetas validadas contra muestras
Clasifica en lote

Usa classify_text en todos los elementos con esas etiquetas. Retorna {id, text, label, confidence}.✓ Copiado

→ Conjunto de datos etiquetado
Revisa baja confianza

Marca elementos donde confidence < 0.6 para revisión manual. Resume: distribución, outliers, etiquetas probablemente faltantes.✓ Copiado

→ Cola de revisión + retroalimentación de taxonomía

Resultado: Un conjunto de datos etiquetado sin ajustar un clasificador ni escribir prompts por elemento.

Errores comunes

Las etiquetas son ambiguas y el clasificador cambia en empates cercanos — Haz que las etiquetas sean mutuamente excluyentes; si los elementos abarcan categorías, permite salida multi-etiqueta

Combinar con: filesystem

Combinaciones

Combínalo con otros MCPs para multiplicar por 10

jina + notion

Digest de investigación semanal publicado en Notion

Busca en arXiv nuevos artículos de 'agentic RAG' esta semana. Resume cada uno y crea una página en Notion en la base de datos Research Digest.✓ Copiado

jina + firecrawl

Jina para páginas individuales, Firecrawl para crawls completos — mismo resultado markdown limpio

Para la lista de URLs, usa parallel_read_url (Jina). Para los 3 sitios de documentación completos, usa crawl de Firecrawl. Fusiona en un directorio de conocimiento.✓ Copiado

jina + filesystem

Construye una base de conocimiento markdown local a partir de una lista de lectura

Lee cada URL en urls.txt, deduplica, guarda en ./knowledge/<hash>.md. Sobrescribe solo si el contenido cambió.✓ Copiado

Herramientas

Lo que expone este MCP

Herramienta	Entradas	Cuándo llamar	Coste
search_web	query, num_results?	Búsqueda general en la web	créditos por llamada
search_arxiv / search_ssrn / search_bibtex / search_images / search_jina_blog	query	Búsquedas dirigidas	créditos por llamada
parallel_search_web / parallel_search_arxiv / parallel_search_ssrn	query[]	Investigación multi-consulta en una llamada	créditos × N consultas
read_url	url	Extracción limpia de contenido de cualquier URL	créditos por página
parallel_read_url	url[]	Ingesta de páginas web en lote	créditos × N páginas
capture_screenshot_url	url	Captura visual de una página	créditos
sort_by_relevance	documents, query	Re-clasifica después de buscar por calidad	créditos
classify_text	texts, labels	Clasificación zero-shot	créditos por texto
deduplicate_strings / deduplicate_images	items, threshold	Elimina casi-duplicados de un corpus	créditos
extract_pdf	url or file	Obtén contenido estructurado de PDFs	créditos por PDF
expand_query / primer / guess_datetime_url	utility	Ayudantes alrededor del ajuste de búsqueda	créditos (menores)

Coste y límites

Lo que cuesta ejecutarlo

Cuota de API: Capa gratuita disponible con límites de tasa; capas pagadas escalan
Tokens por llamada: La salida es el costo mayor — PDFs y dedupes pueden retornar 10k+ tokens
Monetario: Créditos de API de Jina, típicamente medidos por solicitud. Ve jina.ai/pricing.
Consejo: Re-clasifica antes de extraer — extract_pdf es costoso. Cachea salidas read_url localmente; la mayoría de páginas no cambian diariamente.

Seguridad

Permisos, secretos, alcance

Almacenamiento de credenciales: Variable de entorno JINA_API_KEY (opcional para muchas herramientas, requerida para uso pesado)

Salida de datos: Todas las llamadas a api.jina.ai / r.jina.ai / s.jina.ai — consultas y URLs visibles a Jina

Resolución de problemas

Errores comunes y soluciones

429 Too Many Requests

La capa gratuita tiene límites de tasa bajos. Agrega una variable de entorno JINA_API_KEY y mejora en jina.ai para capacidad de ráfaga.

read_url retorna markdown vacío

La página puede estar auth-walled o bloqueada por bots. Intenta con un User-Agent diferente mediante opciones de herramienta, o recurre a playwright/firecrawl.

classify_text asigna todo a 'other'

Tus etiquetas pueden ser demasiado estrechas o muy similares. Agrega descripciones de etiquetas ('bug: el usuario reporta algo roto') para mejor precisión zero-shot.

search_arxiv pierde artículos recientes

El índice de arXiv puede rezagarse; verifica con una búsqueda directa en arxiv.org. Usa expand_query para ampliar términos.

Alternativas

Jina AI vs otros

Alternativa	Cuándo usarla	Contrapartida
Firecrawl	Necesitas crawls de sitio completo o extracción de esquema JSON	Enfocado en crawling; el superpoder de Jina es la amplitud de herramientas de procesamiento más allá de solo lectura
Exa Search MCP	Quieres búsqueda web semántica/neural como interfaz principal	Más fuerte en recuperación semántica; más estrecho que la caja de herramientas de Jina
Brave Search MCP	Quieres índice de búsqueda independiente + privacidad	Solo búsqueda, sin reader/rerank/classify

Más

Recursos

📖 Lee el README oficial en GitHub

🐙 Ver issues abiertas

🔍 Ver todos los 400+ servidores MCP y Skills