Извлечь таблицы из сложного PDF в чистый markdown
Когда использовать: У вас PDF с таблицами, которые pdftotext превращает в кашу, и вы не хотите перепечатывать вручную.
Предварительные требования
- MCP установлен —
uvx kreuzberg-mcp— или добавьте через claude mcp add
Поток
-
ИзвлечьUse kreuzberg to extract /docs/2025-annual-report.pdf. Give me the tables as markdown and the body text separately.✓ Скопировано→ Чистые markdown-таблицы с сохранёнными заголовками
-
ПроверитьFor the "Revenue by Segment" table, reconcile the column totals. Flag any OCR misreads.✓ Скопировано→ Проверка арифметики с пометкой подозрительных ячеек
Итог: Markdown-таблицы, которые можно вставить в документ без доработки.
Подводные камни
- Отсканированный PDF — OCR путает 6 и 8 — Используйте показатель уверенности OCR и перепроверяйте ячейки с низкой уверенностью вручную