/ Annuaire / Playground / Jina AI
● Officiel jina-ai 🔑 Nécessite votre clé

Jina AI

par jina-ai · jina-ai/MCP

19 outils pour la lecture web, la recherche (web, arXiv, SSRN, images), le réclassement, la classification et l'extraction PDF — l'infrastructure IA de Jina en tant que MCP.

L'MCP officiel de Jina AI expose leurs APIs Reader, Search et de traitement. Utilisez-le pour l'extraction propre de Markdown à partir de n'importe quelle URL, la recherche académique sur arXiv et SSRN, la déduplication d'images/textes, le réclassement et l'extraction de figures/tableaux PDF. Niveau gratuit utilisable ; la clé API déverrouille des limites de taux plus élevées.

Pourquoi l'utiliser

Fonctionnalités clés

Démo en direct

Aperçu en pratique

jina.replay ▶ prêt
0/0

Installer

Choisissez votre client

~/Library/Application Support/Claude/claude_desktop_config.json  · Windows: %APPDATA%\Claude\claude_desktop_config.json
{
  "mcpServers": {
    "jina": {
      "command": "npx",
      "args": [
        "-y",
        "mcp-remote",
        "https://mcp.jina.ai/sse"
      ]
    }
  }
}

Ouvrez Claude Desktop → Settings → Developer → Edit Config. Redémarrez après avoir enregistré.

~/.cursor/mcp.json · .cursor/mcp.json
{
  "mcpServers": {
    "jina": {
      "command": "npx",
      "args": [
        "-y",
        "mcp-remote",
        "https://mcp.jina.ai/sse"
      ]
    }
  }
}

Cursor utilise le même schéma mcpServers que Claude Desktop. La config projet l'emporte sur la globale.

VS Code → Cline → MCP Servers → Edit
{
  "mcpServers": {
    "jina": {
      "command": "npx",
      "args": [
        "-y",
        "mcp-remote",
        "https://mcp.jina.ai/sse"
      ]
    }
  }
}

Cliquez sur l'icône MCP Servers dans la barre latérale Cline, puis "Edit Configuration".

~/.codeium/windsurf/mcp_config.json
{
  "mcpServers": {
    "jina": {
      "command": "npx",
      "args": [
        "-y",
        "mcp-remote",
        "https://mcp.jina.ai/sse"
      ]
    }
  }
}

Même format que Claude Desktop. Redémarrez Windsurf pour appliquer.

~/.continue/config.json
{
  "mcpServers": [
    {
      "name": "jina",
      "command": "npx",
      "args": [
        "-y",
        "mcp-remote",
        "https://mcp.jina.ai/sse"
      ]
    }
  ]
}

Continue utilise un tableau d'objets serveur plutôt qu'une map.

~/.config/zed/settings.json
{
  "context_servers": {
    "jina": {
      "command": {
        "path": "npx",
        "args": [
          "-y",
          "mcp-remote",
          "https://mcp.jina.ai/sse"
        ]
      }
    }
  }
}

Ajoutez dans context_servers. Zed recharge à chaud à la sauvegarde.

claude mcp add jina -- npx -y mcp-remote https://mcp.jina.ai/sse

Une seule ligne. Vérifiez avec claude mcp list. Supprimez avec claude mcp remove.

Cas d'usage

Usages concrets : Jina AI

Résumer les articles arXiv récents sur un sujet

👤 Chercheurs, ingénieurs ML se tenant à jour ⏱ ~20 min intermediate

Quand l'utiliser : Vous voulez savoir quoi de nouveau sur arXiv à propos de votre sujet sans lire 50 résumés.

Prérequis
  • Clé API Jina optionnelle — jina.ai → tableau de bord → clé API (le niveau gratuit fonctionne pour un usage léger)
Déroulement
  1. Rechercher sur arXiv
    Utilisez search_arxiv pour trouver des articles des 30 derniers jours sur 'speculative decoding for LLM inference'. Retournez les 20 meilleurs.✓ Copié
    → Liste d'articles avec titres, auteurs, résumés
  2. Réclasser par pertinence
    Utilisez sort_by_relevance pour réclasser par rapport à cette requête : 'practical speedups in production inference, not pure research'. Gardez les 8 meilleurs.✓ Copié
    → Liste réclassée
  3. Résumer chacun
    Pour les 8 meilleurs, extract_pdf de l'article, résumez en 3 points : contribution, méthode, accélération signalée. Sortie sous forme de tableau Markdown.✓ Copié
    → Tableau résumé prêt pour le digest

Résultat : Un digest de recherche hebdomadaire sur votre sujet en 10 minutes.

Pièges
  • extract_pdf sur chaque résultat est coûteux — les crédits s'accumulent — Réclassez d'abord pour réduire les candidats, n'extrayez que les N meilleurs
Combiner avec : notion

Convertir un lot d'URLs en Markdown propre pour RAG

👤 Ingénieurs IA construisant des systèmes de récupération ⏱ ~15 min intermediate

Quand l'utiliser : Vous avez une liste d'URLs à ingérer. Vous voulez du Markdown propre, pas du HTML brut ou un pipeline d'analyse.

Déroulement
  1. Lire les URLs en parallèle
    Utilisez parallel_read_url sur cette liste [URLs]. Retournez du Markdown pour chacun avec l'URL d'origine comme clé.✓ Copié
    → Markdown par URL
  2. Dédupliquer les quasi-doublons
    Utilisez deduplicate_strings à 0.9 de similarité pour supprimer les pages quasi-dupliquées (courant pour les documents miroir).✓ Copié
    → Ensemble dédupliqué avec IDs des pages supprimées
  3. Enregistrer sur disque
    Enregistrez chacun à ./knowledge/<slug>.md où slug est dérivé du chemin URL.✓ Copié
    → Fichiers Markdown prêts pour le pipeline d'incorporation

Résultat : Un corpus propre pour votre étape d'incorporation/indexation, sans écrire de code de scraping.

Pièges
  • Les pages payantes ou avec authentification JS retournent du contenu vide/inutile — Vérifiez quelques URLs — si le contenu est maigre, revenez à playwright pour les flux d'authentification
Combiner avec : filesystem · firecrawl

Classifier un lot de texte avec des étiquettes personnalisées

👤 Analystes de données, équipes de croissance ⏱ ~15 min beginner

Quand l'utiliser : Vous avez N éléments de texte libre (tickets, avis, réponses d'enquête) et voulez les classer dans votre taxonomie.

Déroulement
  1. Définir les étiquettes
    Mes étiquettes : ['bug', 'feature_request', 'question', 'praise', 'other']. Échantillonnez les 10 premiers éléments et vérifiez que les étiquettes conviennent.✓ Copié
    → Étiquettes validées par rapport aux échantillons
  2. Classification par lot
    Utilisez classify_text sur tous les éléments avec ces étiquettes. Retournez {id, text, label, confidence}.✓ Copié
    → Ensemble de données étiqueté
  3. Examiner les faibles confiances
    Signalez les éléments avec une confiance < 0.6 pour examen manuel. Résumé : distribution, valeurs aberrantes, étiquettes probablement manquantes.✓ Copié
    → File d'examen + retours de taxonomie

Résultat : Un ensemble de données étiqueté sans affiner un classificateur ou écrire des invites par élément.

Pièges
  • Les étiquettes sont ambiguës et le classificateur oscille sur les cas proches — Rendez les étiquettes mutuellement exclusives ; si les éléments couvrent plusieurs catégories, autorisez la sortie multi-étiquettes
Combiner avec : filesystem

Combinaisons

Associez-le à d'autres MCPs pour un effet X10

jina + notion

Digest de recherche hebdomadaire posté dans Notion

Recherchez sur arXiv les nouveaux articles 'agentic RAG' cette semaine. Résumez chacun et créez une page Notion dans la base de données Research Digest.✓ Copié
jina + firecrawl

Jina pour les pages uniques, Firecrawl pour les crawls complets — même résultat Markdown propre

Pour la liste des URLs, utilisez parallel_read_url (Jina). Pour les 3 sites de documentation complets, utilisez Firecrawl crawl. Fusionnez dans un seul répertoire de connaissances.✓ Copié
jina + filesystem

Construire une base de connaissances Markdown locale à partir d'une liste de lecture

Lisez chaque URL dans urls.txt, déduquez, enregistrez dans ./knowledge/<hash>.md. Ne remplacez que si le contenu a changé.✓ Copié

Outils

Ce que ce MCP expose

OutilEntréesQuand appelerCoût
search_web query, num_results? Recherche web générale crédits par appel
search_arxiv / search_ssrn / search_bibtex / search_images / search_jina_blog query Recherches ciblées crédits par appel
parallel_search_web / parallel_search_arxiv / parallel_search_ssrn query[] Recherche multi-requêtes en un seul appel crédits × N requêtes
read_url url Extraction de contenu propre à partir de n'importe quelle URL crédits par page
parallel_read_url url[] Ingestion par lot de pages web crédits × N pages
capture_screenshot_url url Capture d'écran visuelle d'une page crédits
sort_by_relevance documents, query Réclasser après la recherche pour la qualité crédits
classify_text texts, labels Classification zéro-shot crédits par texte
deduplicate_strings / deduplicate_images items, threshold Supprimer les quasi-doublons d'un corpus crédits
extract_pdf url ou fichier Obtenir le contenu structuré des PDFs crédits par PDF
expand_query / primer / guess_datetime_url utilitaire Assistants autour du réglage de la recherche crédits (mineur)

Coût et limites

Coût d'exécution

Quota d'API
Niveau gratuit disponible avec des limites de taux ; les niveaux payants sont évolutifs
Tokens par appel
La sortie est le plus grand coût — les PDFs et dédupes peuvent retourner 10k+ jetons
Monétaire
Crédits API Jina, généralement mesurés par requête. Voir jina.ai/pricing.
Astuce
Réclassez avant d'extraire — extract_pdf est coûteux. Mettez en cache les sorties de read_url localement ; la plupart des pages ne changent pas quotidiennement.

Sécurité

Permissions, secrets, portée

Stockage des identifiants : Variable d'environnement JINA_API_KEY (optionnelle pour de nombreux outils, requise pour un usage intensif)
Sortie de données : Tous les appels à api.jina.ai / r.jina.ai / s.jina.ai — requêtes et URLs visibles à Jina

Dépannage

Erreurs courantes et correctifs

429 Trop de requêtes

Le niveau gratuit a des limites de taux basses. Ajoutez une variable d'environnement JINA_API_KEY et mettez à niveau sur jina.ai pour la capacité de burst.

read_url retourne du Markdown vide

La page peut être protégée par authentification ou bloquée par bot. Essayez avec un User-Agent différent via les options de l'outil, ou revenez à playwright/firecrawl.

classify_text assigne tout à 'other'

Vos étiquettes peuvent être trop restrictives ou trop similaires. Ajoutez des descriptions d'étiquettes ('bug: l'utilisateur signale quelque chose de cassé') pour une meilleure précision zéro-shot.

search_arxiv manque les articles récents

L'index arXiv peut être en retard ; vérifiez croisé avec une recherche directe arxiv.org. Utilisez expand_query pour élargir les termes.

Alternatives

Jina AI vs autres

AlternativeQuand l'utiliserCompromis
FirecrawlVous avez besoin de crawls de site complet ou d'extraction de schéma JSONOrienté crawl ; la force de Jina est l'étendue des outils de traitement au-delà de la simple lecture
Exa Search MCPVous voulez la recherche web sémantique/neurale comme interface principalePlus fort sur la récupération sémantique ; plus étroit que la boîte à outils de Jina
Brave Search MCPVous voulez un index de recherche indépendant + confidentialitéRecherche uniquement, pas de lecteur/réclassement/classification

Plus

Ressources

📖 Lire le README officiel sur GitHub

🐙 Voir les issues ouvertes

🔍 Parcourir les 400+ serveurs MCP et Skills