Cómo ingerir una carpeta de PDFs en una base de conocimiento de markdown
Cuándo usarlo: Tienes 50 documentos de investigación en PDF y quieres texto limpio para incrustar.
Requisitos previos
- pnpm — npm i -g pnpm
- Instalar + ejecutar — git clone el repositorio, pnpm install, pnpm start
Flujo
-
Enumera archivosLista todos los archivos .pdf bajo /library/papers/.✓ Copiado→ Lista de rutas
-
Convierte en lotePara cada uno, llama a pdf-to-markdown. Escribe la salida en /library/markdown/<same-name>.md.✓ Copiado→ Aparecen archivos Markdown
-
Verifica unoMuéstrame los primeros 500 caracteres de /library/markdown/attention-is-all-you-need.md.✓ Copiado→ Markdown legible, sin artefactos de PDF
Resultado: Un árbol /markdown/ paralelo listo para incrustar.
Errores comunes
- Los PDFs escaneados (solo imágenes) producen markdown vacío — Aplica OCR a los PDFs escaneados antes de la conversión
- Los PDFs con mucha matemática pierden ecuaciones — Para matemáticas, intenta emparejar con Mathpix o el modelo OCR nougat por separado