Jina AI MCP — Installer & Démo en direct

Pourquoi l'utiliser

Fonctionnalités clés

Première partie — MCP officiel de Jina AI
read_url retourne du Markdown propre — gère les sites rendus en JS
Recherchez sur le web, arXiv, SSRN, images et BibTeX dans une seule interface
Outils de traitement : rerank, classify, dedupe (texte et images), extract_pdf

Démo en direct

Aperçu en pratique

jina.replay ▶ prêt

0/0

Installer

Choisissez votre client

~/Library/Application Support/Claude/claude_desktop_config.json · Windows: %APPDATA%\Claude\claude_desktop_config.json

{
  "mcpServers": {
    "jina": {
      "command": "npx",
      "args": [
        "-y",
        "mcp-remote",
        "https://mcp.jina.ai/sse"
      ]
    }
  }
}

Ouvrez Claude Desktop → Settings → Developer → Edit Config. Redémarrez après avoir enregistré.

~/.cursor/mcp.json · .cursor/mcp.json

{
  "mcpServers": {
    "jina": {
      "command": "npx",
      "args": [
        "-y",
        "mcp-remote",
        "https://mcp.jina.ai/sse"
      ]
    }
  }
}

Cursor utilise le même schéma mcpServers que Claude Desktop. La config projet l'emporte sur la globale.

VS Code → Cline → MCP Servers → Edit

{
  "mcpServers": {
    "jina": {
      "command": "npx",
      "args": [
        "-y",
        "mcp-remote",
        "https://mcp.jina.ai/sse"
      ]
    }
  }
}

Cliquez sur l'icône MCP Servers dans la barre latérale Cline, puis "Edit Configuration".

~/.codeium/windsurf/mcp_config.json

{
  "mcpServers": {
    "jina": {
      "command": "npx",
      "args": [
        "-y",
        "mcp-remote",
        "https://mcp.jina.ai/sse"
      ]
    }
  }
}

Même format que Claude Desktop. Redémarrez Windsurf pour appliquer.

~/.continue/config.json

{
  "mcpServers": [
    {
      "name": "jina",
      "command": "npx",
      "args": [
        "-y",
        "mcp-remote",
        "https://mcp.jina.ai/sse"
      ]
    }
  ]
}

Continue utilise un tableau d'objets serveur plutôt qu'une map.

~/.config/zed/settings.json

{
  "context_servers": {
    "jina": {
      "command": {
        "path": "npx",
        "args": [
          "-y",
          "mcp-remote",
          "https://mcp.jina.ai/sse"
        ]
      }
    }
  }
}

Ajoutez dans context_servers. Zed recharge à chaud à la sauvegarde.

claude mcp add jina -- npx -y mcp-remote https://mcp.jina.ai/sse

Une seule ligne. Vérifiez avec claude mcp list. Supprimez avec claude mcp remove.

Cas d'usage

Usages concrets : Jina AI

Résumer les articles arXiv récents sur un sujet

👤 Chercheurs, ingénieurs ML se tenant à jour ⏱ ~20 min intermediate

Quand l'utiliser : Vous voulez savoir quoi de nouveau sur arXiv à propos de votre sujet sans lire 50 résumés.

Prérequis

Clé API Jina optionnelle — jina.ai → tableau de bord → clé API (le niveau gratuit fonctionne pour un usage léger)

Déroulement

Rechercher sur arXiv

Utilisez search_arxiv pour trouver des articles des 30 derniers jours sur 'speculative decoding for LLM inference'. Retournez les 20 meilleurs.✓ Copié

→ Liste d'articles avec titres, auteurs, résumés
Réclasser par pertinence

Utilisez sort_by_relevance pour réclasser par rapport à cette requête : 'practical speedups in production inference, not pure research'. Gardez les 8 meilleurs.✓ Copié

→ Liste réclassée
Résumer chacun

Pour les 8 meilleurs, extract_pdf de l'article, résumez en 3 points : contribution, méthode, accélération signalée. Sortie sous forme de tableau Markdown.✓ Copié

→ Tableau résumé prêt pour le digest

Résultat : Un digest de recherche hebdomadaire sur votre sujet en 10 minutes.

Pièges

extract_pdf sur chaque résultat est coûteux — les crédits s'accumulent — Réclassez d'abord pour réduire les candidats, n'extrayez que les N meilleurs

Combiner avec : notion

Convertir un lot d'URLs en Markdown propre pour RAG

👤 Ingénieurs IA construisant des systèmes de récupération ⏱ ~15 min intermediate

Quand l'utiliser : Vous avez une liste d'URLs à ingérer. Vous voulez du Markdown propre, pas du HTML brut ou un pipeline d'analyse.

Déroulement

Lire les URLs en parallèle

Utilisez parallel_read_url sur cette liste [URLs]. Retournez du Markdown pour chacun avec l'URL d'origine comme clé.✓ Copié

→ Markdown par URL
Dédupliquer les quasi-doublons

Utilisez deduplicate_strings à 0.9 de similarité pour supprimer les pages quasi-dupliquées (courant pour les documents miroir).✓ Copié

→ Ensemble dédupliqué avec IDs des pages supprimées
Enregistrer sur disque

Enregistrez chacun à ./knowledge/<slug>.md où slug est dérivé du chemin URL.✓ Copié

→ Fichiers Markdown prêts pour le pipeline d'incorporation

Résultat : Un corpus propre pour votre étape d'incorporation/indexation, sans écrire de code de scraping.

Pièges

Les pages payantes ou avec authentification JS retournent du contenu vide/inutile — Vérifiez quelques URLs — si le contenu est maigre, revenez à playwright pour les flux d'authentification

Combiner avec : filesystem · firecrawl

Classifier un lot de texte avec des étiquettes personnalisées

👤 Analystes de données, équipes de croissance ⏱ ~15 min beginner

Quand l'utiliser : Vous avez N éléments de texte libre (tickets, avis, réponses d'enquête) et voulez les classer dans votre taxonomie.

Déroulement

Définir les étiquettes

Mes étiquettes : ['bug', 'feature_request', 'question', 'praise', 'other']. Échantillonnez les 10 premiers éléments et vérifiez que les étiquettes conviennent.✓ Copié

→ Étiquettes validées par rapport aux échantillons
Classification par lot

Utilisez classify_text sur tous les éléments avec ces étiquettes. Retournez {id, text, label, confidence}.✓ Copié

→ Ensemble de données étiqueté
Examiner les faibles confiances

Signalez les éléments avec une confiance < 0.6 pour examen manuel. Résumé : distribution, valeurs aberrantes, étiquettes probablement manquantes.✓ Copié

→ File d'examen + retours de taxonomie

Résultat : Un ensemble de données étiqueté sans affiner un classificateur ou écrire des invites par élément.

Pièges

Les étiquettes sont ambiguës et le classificateur oscille sur les cas proches — Rendez les étiquettes mutuellement exclusives ; si les éléments couvrent plusieurs catégories, autorisez la sortie multi-étiquettes

Combiner avec : filesystem

Combinaisons

Associez-le à d'autres MCPs pour un effet X10

jina + notion

Digest de recherche hebdomadaire posté dans Notion

Recherchez sur arXiv les nouveaux articles 'agentic RAG' cette semaine. Résumez chacun et créez une page Notion dans la base de données Research Digest.✓ Copié

jina + firecrawl

Jina pour les pages uniques, Firecrawl pour les crawls complets — même résultat Markdown propre

Pour la liste des URLs, utilisez parallel_read_url (Jina). Pour les 3 sites de documentation complets, utilisez Firecrawl crawl. Fusionnez dans un seul répertoire de connaissances.✓ Copié

jina + filesystem

Construire une base de connaissances Markdown locale à partir d'une liste de lecture

Lisez chaque URL dans urls.txt, déduquez, enregistrez dans ./knowledge/<hash>.md. Ne remplacez que si le contenu a changé.✓ Copié

Outils

Ce que ce MCP expose

Outil	Entrées	Quand appeler	Coût
search_web	query, num_results?	Recherche web générale	crédits par appel
search_arxiv / search_ssrn / search_bibtex / search_images / search_jina_blog	query	Recherches ciblées	crédits par appel
parallel_search_web / parallel_search_arxiv / parallel_search_ssrn	query[]	Recherche multi-requêtes en un seul appel	crédits × N requêtes
read_url	url	Extraction de contenu propre à partir de n'importe quelle URL	crédits par page
parallel_read_url	url[]	Ingestion par lot de pages web	crédits × N pages
capture_screenshot_url	url	Capture d'écran visuelle d'une page	crédits
sort_by_relevance	documents, query	Réclasser après la recherche pour la qualité	crédits
classify_text	texts, labels	Classification zéro-shot	crédits par texte
deduplicate_strings / deduplicate_images	items, threshold	Supprimer les quasi-doublons d'un corpus	crédits
extract_pdf	url ou fichier	Obtenir le contenu structuré des PDFs	crédits par PDF
expand_query / primer / guess_datetime_url	utilitaire	Assistants autour du réglage de la recherche	crédits (mineur)

Coût et limites

Coût d'exécution

Quota d'API: Niveau gratuit disponible avec des limites de taux ; les niveaux payants sont évolutifs
Tokens par appel: La sortie est le plus grand coût — les PDFs et dédupes peuvent retourner 10k+ jetons
Monétaire: Crédits API Jina, généralement mesurés par requête. Voir jina.ai/pricing.
Astuce: Réclassez avant d'extraire — extract_pdf est coûteux. Mettez en cache les sorties de read_url localement ; la plupart des pages ne changent pas quotidiennement.

Sécurité

Permissions, secrets, portée

Stockage des identifiants : Variable d'environnement JINA_API_KEY (optionnelle pour de nombreux outils, requise pour un usage intensif)

Sortie de données : Tous les appels à api.jina.ai / r.jina.ai / s.jina.ai — requêtes et URLs visibles à Jina

Dépannage

Erreurs courantes et correctifs

429 Trop de requêtes

Le niveau gratuit a des limites de taux basses. Ajoutez une variable d'environnement JINA_API_KEY et mettez à niveau sur jina.ai pour la capacité de burst.

read_url retourne du Markdown vide

La page peut être protégée par authentification ou bloquée par bot. Essayez avec un User-Agent différent via les options de l'outil, ou revenez à playwright/firecrawl.

classify_text assigne tout à 'other'

Vos étiquettes peuvent être trop restrictives ou trop similaires. Ajoutez des descriptions d'étiquettes ('bug: l'utilisateur signale quelque chose de cassé') pour une meilleure précision zéro-shot.

search_arxiv manque les articles récents

L'index arXiv peut être en retard ; vérifiez croisé avec une recherche directe arxiv.org. Utilisez expand_query pour élargir les termes.

Alternatives

Jina AI vs autres

Alternative	Quand l'utiliser	Compromis
Firecrawl	Vous avez besoin de crawls de site complet ou d'extraction de schéma JSON	Orienté crawl ; la force de Jina est l'étendue des outils de traitement au-delà de la simple lecture
Exa Search MCP	Vous voulez la recherche web sémantique/neurale comme interface principale	Plus fort sur la récupération sémantique ; plus étroit que la boîte à outils de Jina
Brave Search MCP	Vous voulez un index de recherche indépendant + confidentialité	Recherche uniquement, pas de lecteur/réclassement/classification

Plus

Ressources

📖 Lire le README officiel sur GitHub

🐙 Voir les issues ouvertes

🔍 Parcourir les 400+ serveurs MCP et Skills