Comment ingérer un dossier de PDFs dans une base de connaissances markdown
Quand l'utiliser : Vous avez 50 articles de recherche en PDF et souhaitez un texte propre à incorporer.
Prérequis
- pnpm — npm i -g pnpm
- Installer et exécuter — git clone le dépôt, pnpm install, pnpm start
Déroulement
-
Énumérer les fichiersRépertoriez tous les .pdf sous /library/papers/.✓ Copié→ Liste de chemins
-
Convertir par lotPour chacun, appelez pdf-to-markdown. Écrivez la sortie vers /library/markdown/<same-name>.md.✓ Copié→ Les fichiers markdown apparaissent
-
Vérifier rapidement unMontrez-moi les 500 premiers caractères de /library/markdown/attention-is-all-you-need.md.✓ Copié→ Markdown lisible, sans artefacts PDF
Résultat : Un arbre /markdown/ parallèle prêt à être incorporé.
Pièges
- Les PDFs numérisés (image uniquement) produisent du markdown vide — Pré-OCR des PDFs numérisés avant conversion
- Les PDFs riches en mathématiques perdent les équations — Pour les mathématiques, essayez d'associer à Mathpix ou au modèle OCR nougat séparément