Extraire les tableaux d'un PDF mal formaté en markdown propre
Quand l'utiliser : Vous avez un PDF avec des tableaux que pdftotext déforme et vous ne voulez pas les ressaisir.
Prérequis
- MCP installé —
uvx kreuzberg-mcp— ou ajoutez-le via claude mcp add
Déroulement
-
ExtractionUtilise kreuzberg pour extraire /docs/2025-annual-report.pdf. Donne-moi les tableaux en markdown et le corps du texte séparément.✓ Copié→ Tableaux markdown propres avec en-têtes préservés
-
VérificationPour le tableau « Revenue by Segment », vérifie les totaux de colonnes. Signale toute erreur OCR.✓ Copié→ Vérification arithmétique avec cellules suspectes signalées
Résultat : Des tableaux markdown prêts à coller dans un document sans retouche.
Pièges
- PDF numérisé — l'OCR confond le 6 et le 8 — Utilisez la sortie de confiance OCR et vérifiez manuellement les cellules à faible confiance