Como ingerir uma pasta de PDFs em uma base de conhecimento markdown
Quando usar: Você tem 50 artigos de pesquisa em PDF e quer texto limpo para incorporar.
Pré-requisitos
- pnpm — npm i -g pnpm
- Instalar + executar — git clone the repo, pnpm install, pnpm start
Fluxo
-
Enumerar arquivosListar todos os arquivos .pdf em /library/papers/.✓ Copiado→ Lista de caminhos
-
Converter em lotePara cada um, chame pdf-to-markdown. Escreva a saída em /library/markdown/<same-name>.md.✓ Copiado→ Arquivos Markdown aparecem
-
Verificar umMostre-me os primeiros 500 caracteres de /library/markdown/attention-is-all-you-need.md.✓ Copiado→ Markdown legível, sem artefatos de PDF
Resultado: Uma árvore /markdown/ paralela pronta para incorporar.
Armadilhas
- PDFs digitalizados (apenas imagem) produzem markdown vazio — Pré-OCR PDFs digitalizados antes da conversão
- PDFs com muita matemática perdem equações — Para matemática, tente emparelhar com Mathpix ou o modelo nougat OCR separadamente