Extrair tabelas de um PDF bagunçado e gerar markdown limpo
Quando usar: Você tem um PDF com tabelas que o pdftotext distorce e não quer digitá-las manualmente.
Pré-requisitos
- MCP instalado —
uvx kreuzberg-mcp— ou adicione via claude mcp add
Fluxo
-
ExtrairUse kreuzberg para extrair /docs/2025-annual-report.pdf. Me dê as tabelas em markdown e o corpo do texto separadamente.✓ Copiado→ Tabelas em markdown limpo com cabeçalhos preservados
-
VerificarNa tabela "Receita por Segmento", confira os totais das colunas. Aponte qualquer leitura incorreta do OCR.✓ Copiado→ Verificação aritmética com células sinalizadas
Resultado: Tabelas em markdown prontas para colar em um documento sem retrabalho.
Armadilhas
- PDF digitalizado — OCR confunde 6 com 8 — Use a saída de confiança do OCR e revise manualmente as células com baixa confiança