/ الدليل / الملعب / Kreuzberg
● مجتمع kreuzberg-dev ⚡ فوري

Kreuzberg

بواسطة kreuzberg-dev · kreuzberg-dev/kreuzberg

استخرج نصًا نظيفًا وجداول وبيانات وصفية من ملفات PDF ومستندات Office والصور و97+ صيغة أخرى — عبر خادم MCP مبني على Rust.

Kreuzberg إطار عمل متعدد اللغات لاستخبارات المستندات. يُغلّف خادم MCP خط أنابيب Rust الأساسي: يستدعيه Claude لاستخراج محتوى منظم من أي صيغة مستند دون الحاجة إلى Unstructured أو Tika أو pdfplumber. يُعالج OCR للـ PDFs الممسوحة ضوئيًا، وكشف الجداول، والبيانات الوصفية في استدعاء واحد.

لماذا تستخدمه

الميزات الأساسية

عرض مباشر

كيف يبدو في الممارسة

kreuzberg.replay ▶ جاهز
0/0

التثبيت

اختر العميل

~/Library/Application Support/Claude/claude_desktop_config.json  · Windows: %APPDATA%\Claude\claude_desktop_config.json
{
  "mcpServers": {
    "kreuzberg": {
      "command": "uvx",
      "args": [
        "kreuzberg-mcp"
      ]
    }
  }
}

افتح Claude Desktop → Settings → Developer → Edit Config. أعد التشغيل بعد الحفظ.

~/.cursor/mcp.json · .cursor/mcp.json
{
  "mcpServers": {
    "kreuzberg": {
      "command": "uvx",
      "args": [
        "kreuzberg-mcp"
      ]
    }
  }
}

يستخدم Cursor نفس مخطط mcpServers مثل Claude Desktop. إعدادات المشروع أولى من الإعدادات العامة.

VS Code → Cline → MCP Servers → Edit
{
  "mcpServers": {
    "kreuzberg": {
      "command": "uvx",
      "args": [
        "kreuzberg-mcp"
      ]
    }
  }
}

انقر على أيقونة MCP Servers في شريط Cline الجانبي، ثم "Edit Configuration".

~/.codeium/windsurf/mcp_config.json
{
  "mcpServers": {
    "kreuzberg": {
      "command": "uvx",
      "args": [
        "kreuzberg-mcp"
      ]
    }
  }
}

نفس الصيغة مثل Claude Desktop. أعد تشغيل Windsurf لتطبيق التغييرات.

~/.continue/config.json
{
  "mcpServers": [
    {
      "name": "kreuzberg",
      "command": "uvx",
      "args": [
        "kreuzberg-mcp"
      ]
    }
  ]
}

يستخدم Continue مصفوفة من كائنات الخادم بدلاً من خريطة.

~/.config/zed/settings.json
{
  "context_servers": {
    "kreuzberg": {
      "command": {
        "path": "uvx",
        "args": [
          "kreuzberg-mcp"
        ]
      }
    }
  }
}

أضف إلى context_servers. يعيد Zed التحميل تلقائيًا عند الحفظ.

claude mcp add kreuzberg -- uvx kreuzberg-mcp

أمر من سطر واحد. تحقق باستخدام claude mcp list. احذف باستخدام claude mcp remove.

حالات الاستخدام

استخدامات عملية: Kreuzberg

استخراج الجداول من PDF فوضوي إلى markdown نظيف

👤 المحللون الذين يتعاملون مع PDFs التقارير ⏱ ~10 min beginner

متى تستخدمه: لديك PDF يحتوي على جداول يُشوّهها pdftotext ولا تريد إعادة كتابتها يدويًا.

المتطلبات الأساسية
  • MCP مثبَّتuvx kreuzberg-mcp — أو أضفه عبر claude mcp add
الخطوات
  1. الاستخراج
    استخدم kreuzberg لاستخراج /docs/2025-annual-report.pdf. أعطني الجداول بصيغة markdown ونص المحتوى منفصلَين.✓ تم النسخ
    → جداول markdown نظيفة مع ترويسات محفوظة
  2. التحقق
    في جدول "Revenue by Segment"، تحقق من مجاميع الأعمدة. أشر إلى أي أخطاء OCR.✓ تم النسخ
    → فحص حسابي مع إبراز الخلايا المشكوك فيها

النتيجة: جداول markdown جاهزة للنسخ في مستند دون أي إعادة تنسيق.

المزالق
  • PDF ممسوح — OCR يخلط الرقم 6 بالرقم 8 — استخدم مخرجات ثقة OCR وأعد مسح الخلايا ذات الثقة المنخفضة يدويًا
اجمعها مع: filesystem

استيعاب مجلد من مستندات بصيغ مختلطة للفهرسة اللاحقة

👤 المهندسون الذين يبنون خطوط RAG ⏱ ~30 min intermediate

متى تستخدمه: يُسلّمك العميل ملف zip يحوي PDFs ومستندات Word وعروض PowerPoint وتحتاج نصًا نظيفًا للـ embedding.

المتطلبات الأساسية
  • Filesystem MCP محدود نطاقه بالمجلد — شغّل fs MCP مع مجلد الاستيعاب كجذر
الخطوات
  1. الجرد
    أدرج كل ملف تحت /ingest/. لكل ملف، استدعِ kreuzberg.detect_format وأبلغ عن النتيجة.✓ تم النسخ
    → جدول يربط كل ملف بصيغته
  2. الاستخراج الجماعي
    لكل ملف، استخرج النص والبيانات الوصفية. احفظ .txt نظيفًا بجانب الأصل وملف manifest.json يحوي البيانات الوصفية.✓ تم النسخ
    → معالجة جميع الملفات؛ manifest يحتوي كل سجل
  3. فحص الجودة
    أدرج كل ملف عاد استخراجه بأقل من 100 حرف — تلك على الأرجح ممسوحة أو تالفة. أعد التشغيل مع إجبار OCR.✓ تم النسخ
    → تحديد الملفات ذات المحتوى المنخفض وإعادة محاولتها

النتيجة: مجلد ملفات نصية نظيفة جاهزة للـ embedding مع manifest للبيانات الوصفية.

المزالق
  • PDF مشفَّر — يُعيد Kreuzberg خطأً — افكّ التشفير بـ qpdf أو اطلب النسخة غير المحمية
اجمعها مع: filesystem · memory

التركيبات

اجمعها مع خوادم MCP أخرى لتحقيق نتائج x10

kreuzberg + filesystem

اجتياز مجلد واستخراج كل مستند في مكانه

لكل PDF تحت /docs، استخرج النص واحفظه بصيغة .md بجانبه.✓ تم النسخ
kreuzberg + memory

استيعاب المحتوى المستخرج في رسم بياني للمعرفة

استخرج /contracts/*.pdf وخزّن المصطلحات الرئيسية في memory للاستعلام عبر المستندات.✓ تم النسخ

الأدوات

ما يوفره هذا الـ MCP

الأداةالمدخلاتمتى تستدعيهاالتكلفة
extract_text path: str, ocr?: bool الاستدعاء الأساسي للاستخراج free
extract_metadata path: str حين تريد البيانات الوصفية فقط دون نص المحتوى free
extract_tables path: str استخراج مركَّز على الجداول free
detect_format path: str تأكيد الصيغة قبل الاستخراج free

التكلفة والحدود

تكلفة التشغيل

حصة API
غير محدود — محلي
الرموز لكل استدعاء
يتناسب مع حجم المستند؛ PDF من 20 صفحة ≈ 8k رمز من المخرجات
التكلفة المالية
مجاني (مفتوح المصدر)
نصيحة
استخدم extract_metadata أولًا على الملفات الكبيرة لتجنب معالجة ما لا حاجة إليه

الأمان

الصلاحيات والأسرار ونطاق الأثر

تخزين بيانات الاعتماد: لا شيء في الوضع المحلي
نقل البيانات الخارجي: لا شيء — كل المعالجة محلية

استكشاف الأخطاء

الأخطاء الشائعة وحلولها

ModuleNotFoundError: tesseract

ثبّت ثنائي Tesseract للنظام: brew install tesseract / apt install tesseract-ocr

تحقق: `tesseract --version`
مخرجات فارغة على PDF

على الأرجح PDF نصية فقط — أعد التشغيل مع ocr=true

تحقق: Check output.metadata.has_text_layer
جداول XLSX تأتي مبعثرة

مرّر اسم الورقة صراحةً: الأداة تدعم معامل sheet

البدائل

Kreuzberg مقابل البدائل

البديلمتى تستخدمهاالمقايضة
markdownify-mcpتريد محوّلًا أخف قائمًا على Node بلا OCRصيغ أقل، لا حفظ للجداول
Unstructured.ioتحتاج تحليل PDF على مستوى المؤسسة وتقبّل التكلفة السحابيةمدفوع؛ مستضاف سحابيًا

المزيد

الموارد

📖 اقرأ ملف README الرسمي على GitHub

🐙 تصفح القضايا المفتوحة

🔍 تصفح أكثر من 400 خادم MCP و Skills