Tabellen aus einem unübersichtlichen PDF in sauberes Markdown extrahieren
Wann einsetzen: Du hast ein PDF mit Tabellen, die pdftotext zerstückelt, und willst sie nicht manuell abtippen.
Voraussetzungen
- MCP installiert —
uvx kreuzberg-mcp— oder per claude mcp add hinzufügen
Ablauf
-
ExtrahierenNutze kreuzberg, um /docs/2025-annual-report.pdf zu extrahieren. Gib mir die Tabellen als Markdown und den Fließtext separat.✓ Kopiert→ Saubere Markdown-Tabellen mit erhaltenen Kopfzeilen
-
VerifizierenPrüfe für die Tabelle „Revenue by Segment“ die Spaltensummen. Markiere mögliche OCR-Lesefehler.✓ Kopiert→ Arithmetische Prüfung mit markierten Zellen
Ergebnis: Markdown-Tabellen, die du ohne Nacharbeit direkt in ein Dokument einfügen kannst.
Fallstricke
- Gescanntes PDF — OCR verwechselt 6 und 8 — OCR-Konfidenzausgabe nutzen und Zellen mit niedriger Konfidenz manuell nachprüfen