Extraer tablas de un PDF desordenado y convertirlas a markdown limpio
Cuándo usarlo: Tienes un PDF con tablas que pdftotext estropea y no quieres volver a teclearlas.
Requisitos previos
- MCP instalado —
uvx kreuzberg-mcp— o añade mediante claude mcp add
Flujo
-
ExtraerUtiliza kreuzberg para extraer /docs/2025-annual-report.pdf. Dame las tablas en markdown y el texto del cuerpo por separado.✓ Copiado→ Tablas markdown limpias con encabezados conservados
-
VerificarFor the "Revenue by Segment" table, reconcile the column totals. Flag any OCR misreads.✓ Copiado→ Verificación aritmética con celdas marcadas
Resultado: Tablas en markdown listas para pegar en un documento sin retrabajo.
Errores comunes
- PDF escaneado — el OCR confunde el 6 con el 8 — Usa la salida de confianza del OCR y revisa manualmente las celdas de baja confianza