/ Directorio / Playground / Jina AI
● Oficial jina-ai 🔑 Requiere tu clave

Jina AI

por jina-ai · jina-ai/MCP

19 herramientas para lectura web, búsqueda (web, arXiv, SSRN, imágenes), re-ranking, clasificación y extracción de PDF — infraestructura IA de Jina como MCP.

MCP oficial de Jina AI que expone sus APIs de Reader, Search y procesamiento. Úsalo para extracción limpia a markdown de cualquier URL, búsqueda académica en arXiv y SSRN, deduplicación de imágenes/texto, re-ranking y extracción de figuras/tablas de PDF. Hay una capa gratuita; la clave API desbloquea límites de tasa más altos.

Por qué usarlo

Características clave

Demo en vivo

Cómo se ve en la práctica

jina.replay ▶ listo
0/0

Instalar

Elige tu cliente

~/Library/Application Support/Claude/claude_desktop_config.json  · Windows: %APPDATA%\Claude\claude_desktop_config.json
{
  "mcpServers": {
    "jina": {
      "command": "npx",
      "args": [
        "-y",
        "mcp-remote",
        "https://mcp.jina.ai/sse"
      ]
    }
  }
}

Abre Claude Desktop → Settings → Developer → Edit Config. Reinicia después de guardar.

~/.cursor/mcp.json · .cursor/mcp.json
{
  "mcpServers": {
    "jina": {
      "command": "npx",
      "args": [
        "-y",
        "mcp-remote",
        "https://mcp.jina.ai/sse"
      ]
    }
  }
}

Cursor usa el mismo esquema mcpServers que Claude Desktop. La configuración del proyecto prevalece sobre la global.

VS Code → Cline → MCP Servers → Edit
{
  "mcpServers": {
    "jina": {
      "command": "npx",
      "args": [
        "-y",
        "mcp-remote",
        "https://mcp.jina.ai/sse"
      ]
    }
  }
}

Haz clic en el icono MCP Servers de la barra lateral de Cline y luego en "Edit Configuration".

~/.codeium/windsurf/mcp_config.json
{
  "mcpServers": {
    "jina": {
      "command": "npx",
      "args": [
        "-y",
        "mcp-remote",
        "https://mcp.jina.ai/sse"
      ]
    }
  }
}

Mismo formato que Claude Desktop. Reinicia Windsurf para aplicar.

~/.continue/config.json
{
  "mcpServers": [
    {
      "name": "jina",
      "command": "npx",
      "args": [
        "-y",
        "mcp-remote",
        "https://mcp.jina.ai/sse"
      ]
    }
  ]
}

Continue usa un array de objetos de servidor en lugar de un mapa.

~/.config/zed/settings.json
{
  "context_servers": {
    "jina": {
      "command": {
        "path": "npx",
        "args": [
          "-y",
          "mcp-remote",
          "https://mcp.jina.ai/sse"
        ]
      }
    }
  }
}

Añádelo a context_servers. Zed recarga en caliente al guardar.

claude mcp add jina -- npx -y mcp-remote https://mcp.jina.ai/sse

Un solo comando. Verifica con claude mcp list. Quita con claude mcp remove.

Casos de uso

Usos del mundo real: Jina AI

Resume artículos recientes de arXiv sobre un tema

👤 Investigadores, ingenieros de ML mantenerse actualizado ⏱ ~20 min intermediate

Cuándo usarlo: Quieres saber qué hay nuevo en arXiv sobre tu tema sin leer 50 resúmenes.

Requisitos previos
  • Clave API de Jina opcional — jina.ai → dashboard → API key (la capa gratuita funciona para uso ligero)
Flujo
  1. Buscar en arXiv
    Usa search_arxiv para encontrar artículos de los últimos 30 días sobre 'speculative decoding for LLM inference'. Retorna los top 20.✓ Copiado
    → Lista de artículos con títulos, autores, resúmenes
  2. Re-clasificar por relevancia
    Usa sort_by_relevance para re-clasificar contra esta consulta: 'practical speedups in production inference, not pure research'. Mantén los top 8.✓ Copiado
    → Lista re-clasificada
  3. Resume cada uno
    Para los top 8, extrae extract_pdf el artículo, resume en 3 puntos: contribución, método, speedup reportado. Retorna como tabla markdown.✓ Copiado
    → Tabla de resumen lista para el digest

Resultado: Un digest de investigación semanal sobre tu tema en 10 minutos.

Errores comunes
  • extract_pdf en cada resultado es costoso — los créditos se acumulan — Re-clasifica primero para cortar candidatos, solo extrae los top N
Combinar con: notion

Convierte un lote de URLs a markdown limpio para RAG

👤 Ingenieros de IA construyendo sistemas de recuperación ⏱ ~15 min intermediate

Cuándo usarlo: Tienes una lista de URLs para ingerir. Quieres markdown limpio, no HTML crudo ni un pipeline de parsing.

Flujo
  1. Lee URLs en paralelo
    Usa parallel_read_url en esta lista [URLs]. Retorna markdown para cada una con la URL original como clave.✓ Copiado
    → Markdown por URL
  2. Deduplica casi-duplicados
    Usa deduplicate_strings a 0.9 de similitud para descartar páginas casi-duplicadas (común en documentos espejo).✓ Copiado
    → Conjunto deduplicado con IDs de páginas descartadas
  3. Guarda en disco
    Guarda cada una en ./knowledge/<slug>.md donde slug se deriva de la ruta de la URL.✓ Copiado
    → Archivos markdown listos para el pipeline de embedding

Resultado: Un corpus limpio para tu paso de embedding/indexado, sin escribir código de scraping.

Errores comunes
  • Páginas con paywall o JS-auth-walled retornan en blanco/basura — Verifica algunos URLs — si el contenido es escaso, recurre a playwright para flujos de autenticación
Combinar con: filesystem · firecrawl

Clasifica un lote de texto con etiquetas personalizadas

👤 Analistas de datos, equipos de crecimiento ⏱ ~15 min beginner

Cuándo usarlo: Tienes N elementos de texto libre (tickets, reseñas, respuestas de encuestas) y quieres distribuirlos en tu taxonomía.

Flujo
  1. Define etiquetas
    Mis etiquetas: ['bug', 'feature_request', 'question', 'praise', 'other']. Muestrea los primeros 10 elementos y verifica que las etiquetas se ajusten.✓ Copiado
    → Etiquetas validadas contra muestras
  2. Clasifica en lote
    Usa classify_text en todos los elementos con esas etiquetas. Retorna {id, text, label, confidence}.✓ Copiado
    → Conjunto de datos etiquetado
  3. Revisa baja confianza
    Marca elementos donde confidence < 0.6 para revisión manual. Resume: distribución, outliers, etiquetas probablemente faltantes.✓ Copiado
    → Cola de revisión + retroalimentación de taxonomía

Resultado: Un conjunto de datos etiquetado sin ajustar un clasificador ni escribir prompts por elemento.

Errores comunes
  • Las etiquetas son ambiguas y el clasificador cambia en empates cercanos — Haz que las etiquetas sean mutuamente excluyentes; si los elementos abarcan categorías, permite salida multi-etiqueta
Combinar con: filesystem

Combinaciones

Combínalo con otros MCPs para multiplicar por 10

jina + notion

Digest de investigación semanal publicado en Notion

Busca en arXiv nuevos artículos de 'agentic RAG' esta semana. Resume cada uno y crea una página en Notion en la base de datos Research Digest.✓ Copiado
jina + firecrawl

Jina para páginas individuales, Firecrawl para crawls completos — mismo resultado markdown limpio

Para la lista de URLs, usa parallel_read_url (Jina). Para los 3 sitios de documentación completos, usa crawl de Firecrawl. Fusiona en un directorio de conocimiento.✓ Copiado
jina + filesystem

Construye una base de conocimiento markdown local a partir de una lista de lectura

Lee cada URL en urls.txt, deduplica, guarda en ./knowledge/<hash>.md. Sobrescribe solo si el contenido cambió.✓ Copiado

Herramientas

Lo que expone este MCP

HerramientaEntradasCuándo llamarCoste
search_web query, num_results? Búsqueda general en la web créditos por llamada
search_arxiv / search_ssrn / search_bibtex / search_images / search_jina_blog query Búsquedas dirigidas créditos por llamada
parallel_search_web / parallel_search_arxiv / parallel_search_ssrn query[] Investigación multi-consulta en una llamada créditos × N consultas
read_url url Extracción limpia de contenido de cualquier URL créditos por página
parallel_read_url url[] Ingesta de páginas web en lote créditos × N páginas
capture_screenshot_url url Captura visual de una página créditos
sort_by_relevance documents, query Re-clasifica después de buscar por calidad créditos
classify_text texts, labels Clasificación zero-shot créditos por texto
deduplicate_strings / deduplicate_images items, threshold Elimina casi-duplicados de un corpus créditos
extract_pdf url or file Obtén contenido estructurado de PDFs créditos por PDF
expand_query / primer / guess_datetime_url utility Ayudantes alrededor del ajuste de búsqueda créditos (menores)

Coste y límites

Lo que cuesta ejecutarlo

Cuota de API
Capa gratuita disponible con límites de tasa; capas pagadas escalan
Tokens por llamada
La salida es el costo mayor — PDFs y dedupes pueden retornar 10k+ tokens
Monetario
Créditos de API de Jina, típicamente medidos por solicitud. Ve jina.ai/pricing.
Consejo
Re-clasifica antes de extraer — extract_pdf es costoso. Cachea salidas read_url localmente; la mayoría de páginas no cambian diariamente.

Seguridad

Permisos, secretos, alcance

Almacenamiento de credenciales: Variable de entorno JINA_API_KEY (opcional para muchas herramientas, requerida para uso pesado)
Salida de datos: Todas las llamadas a api.jina.ai / r.jina.ai / s.jina.ai — consultas y URLs visibles a Jina

Resolución de problemas

Errores comunes y soluciones

429 Too Many Requests

La capa gratuita tiene límites de tasa bajos. Agrega una variable de entorno JINA_API_KEY y mejora en jina.ai para capacidad de ráfaga.

read_url retorna markdown vacío

La página puede estar auth-walled o bloqueada por bots. Intenta con un User-Agent diferente mediante opciones de herramienta, o recurre a playwright/firecrawl.

classify_text asigna todo a 'other'

Tus etiquetas pueden ser demasiado estrechas o muy similares. Agrega descripciones de etiquetas ('bug: el usuario reporta algo roto') para mejor precisión zero-shot.

search_arxiv pierde artículos recientes

El índice de arXiv puede rezagarse; verifica con una búsqueda directa en arxiv.org. Usa expand_query para ampliar términos.

Alternativas

Jina AI vs otros

AlternativaCuándo usarlaContrapartida
FirecrawlNecesitas crawls de sitio completo o extracción de esquema JSONEnfocado en crawling; el superpoder de Jina es la amplitud de herramientas de procesamiento más allá de solo lectura
Exa Search MCPQuieres búsqueda web semántica/neural como interfaz principalMás fuerte en recuperación semántica; más estrecho que la caja de herramientas de Jina
Brave Search MCPQuieres índice de búsqueda independiente + privacidadSolo búsqueda, sin reader/rerank/classify

Más

Recursos

📖 Lee el README oficial en GitHub

🐙 Ver issues abiertas

🔍 Ver todos los 400+ servidores MCP y Skills