Kreuzberg MCP — التثبيت & عرض مباشر

لماذا تستخدمه

الميزات الأساسية

97+ صيغة — PDF, DOCX, XLSX, PPTX, صور, HTML, EPUB, RTF
نواة Rust — سريعة، استهلاك ذاكرة منخفض مقارنةً ببدائل Python
OCR مدمج (Tesseract/PaddleOCR) للمستندات الممسوحة
يحافظ على البنية — جداول بصيغة markdown، عناوين، قوائم
يستخرج البيانات الوصفية: المؤلف، تاريخ الإنشاء، عدد الكلمات، اللغة

عرض مباشر

كيف يبدو في الممارسة

kreuzberg.replay ▶ جاهز

0/0

التثبيت

اختر العميل

~/Library/Application Support/Claude/claude_desktop_config.json · Windows: %APPDATA%\Claude\claude_desktop_config.json

{
  "mcpServers": {
    "kreuzberg": {
      "command": "uvx",
      "args": [
        "kreuzberg-mcp"
      ]
    }
  }
}

افتح Claude Desktop → Settings → Developer → Edit Config. أعد التشغيل بعد الحفظ.

~/.cursor/mcp.json · .cursor/mcp.json

{
  "mcpServers": {
    "kreuzberg": {
      "command": "uvx",
      "args": [
        "kreuzberg-mcp"
      ]
    }
  }
}

يستخدم Cursor نفس مخطط mcpServers مثل Claude Desktop. إعدادات المشروع أولى من الإعدادات العامة.

VS Code → Cline → MCP Servers → Edit

{
  "mcpServers": {
    "kreuzberg": {
      "command": "uvx",
      "args": [
        "kreuzberg-mcp"
      ]
    }
  }
}

انقر على أيقونة MCP Servers في شريط Cline الجانبي، ثم "Edit Configuration".

~/.codeium/windsurf/mcp_config.json

{
  "mcpServers": {
    "kreuzberg": {
      "command": "uvx",
      "args": [
        "kreuzberg-mcp"
      ]
    }
  }
}

نفس الصيغة مثل Claude Desktop. أعد تشغيل Windsurf لتطبيق التغييرات.

~/.continue/config.json

{
  "mcpServers": [
    {
      "name": "kreuzberg",
      "command": "uvx",
      "args": [
        "kreuzberg-mcp"
      ]
    }
  ]
}

يستخدم Continue مصفوفة من كائنات الخادم بدلاً من خريطة.

~/.config/zed/settings.json

{
  "context_servers": {
    "kreuzberg": {
      "command": {
        "path": "uvx",
        "args": [
          "kreuzberg-mcp"
        ]
      }
    }
  }
}

أضف إلى context_servers. يعيد Zed التحميل تلقائيًا عند الحفظ.

claude mcp add kreuzberg -- uvx kreuzberg-mcp

أمر من سطر واحد. تحقق باستخدام claude mcp list. احذف باستخدام claude mcp remove.

حالات الاستخدام

استخدامات عملية: Kreuzberg

استخراج الجداول من PDF فوضوي إلى markdown نظيف

👤 المحللون الذين يتعاملون مع PDFs التقارير ⏱ ~10 min beginner

متى تستخدمه: لديك PDF يحتوي على جداول يُشوّهها pdftotext ولا تريد إعادة كتابتها يدويًا.

المتطلبات الأساسية

MCP مثبَّت — uvx kreuzberg-mcp — أو أضفه عبر claude mcp add

الخطوات

الاستخراج

استخدم kreuzberg لاستخراج /docs/2025-annual-report.pdf. أعطني الجداول بصيغة markdown ونص المحتوى منفصلَين.✓ تم النسخ

→ جداول markdown نظيفة مع ترويسات محفوظة
التحقق

في جدول "Revenue by Segment"، تحقق من مجاميع الأعمدة. أشر إلى أي أخطاء OCR.✓ تم النسخ

→ فحص حسابي مع إبراز الخلايا المشكوك فيها

النتيجة: جداول markdown جاهزة للنسخ في مستند دون أي إعادة تنسيق.

المزالق

PDF ممسوح — OCR يخلط الرقم 6 بالرقم 8 — استخدم مخرجات ثقة OCR وأعد مسح الخلايا ذات الثقة المنخفضة يدويًا

اجمعها مع: filesystem

استيعاب مجلد من مستندات بصيغ مختلطة للفهرسة اللاحقة

👤 المهندسون الذين يبنون خطوط RAG ⏱ ~30 min intermediate

متى تستخدمه: يُسلّمك العميل ملف zip يحوي PDFs ومستندات Word وعروض PowerPoint وتحتاج نصًا نظيفًا للـ embedding.

المتطلبات الأساسية

Filesystem MCP محدود نطاقه بالمجلد — شغّل fs MCP مع مجلد الاستيعاب كجذر

الخطوات

الجرد

أدرج كل ملف تحت /ingest/. لكل ملف، استدعِ kreuzberg.detect_format وأبلغ عن النتيجة.✓ تم النسخ

→ جدول يربط كل ملف بصيغته
الاستخراج الجماعي

لكل ملف، استخرج النص والبيانات الوصفية. احفظ .txt نظيفًا بجانب الأصل وملف manifest.json يحوي البيانات الوصفية.✓ تم النسخ

→ معالجة جميع الملفات؛ manifest يحتوي كل سجل
فحص الجودة

أدرج كل ملف عاد استخراجه بأقل من 100 حرف — تلك على الأرجح ممسوحة أو تالفة. أعد التشغيل مع إجبار OCR.✓ تم النسخ

→ تحديد الملفات ذات المحتوى المنخفض وإعادة محاولتها

النتيجة: مجلد ملفات نصية نظيفة جاهزة للـ embedding مع manifest للبيانات الوصفية.

المزالق

PDF مشفَّر — يُعيد Kreuzberg خطأً — افكّ التشفير بـ qpdf أو اطلب النسخة غير المحمية

اجمعها مع: filesystem · memory

التركيبات

اجمعها مع خوادم MCP أخرى لتحقيق نتائج x10

kreuzberg + filesystem

اجتياز مجلد واستخراج كل مستند في مكانه

لكل PDF تحت /docs، استخرج النص واحفظه بصيغة .md بجانبه.✓ تم النسخ

kreuzberg + memory

استيعاب المحتوى المستخرج في رسم بياني للمعرفة

استخرج /contracts/*.pdf وخزّن المصطلحات الرئيسية في memory للاستعلام عبر المستندات.✓ تم النسخ

الأدوات

ما يوفره هذا الـ MCP

الأداة	المدخلات	متى تستدعيها	التكلفة
extract_text	path: str, ocr?: bool	الاستدعاء الأساسي للاستخراج	free
extract_metadata	path: str	حين تريد البيانات الوصفية فقط دون نص المحتوى	free
extract_tables	path: str	استخراج مركَّز على الجداول	free
detect_format	path: str	تأكيد الصيغة قبل الاستخراج	free

التكلفة والحدود

تكلفة التشغيل

حصة API: غير محدود — محلي
الرموز لكل استدعاء: يتناسب مع حجم المستند؛ PDF من 20 صفحة ≈ 8k رمز من المخرجات
التكلفة المالية: مجاني (مفتوح المصدر)
نصيحة: استخدم extract_metadata أولًا على الملفات الكبيرة لتجنب معالجة ما لا حاجة إليه

الأمان

الصلاحيات والأسرار ونطاق الأثر

تخزين بيانات الاعتماد: لا شيء في الوضع المحلي

نقل البيانات الخارجي: لا شيء — كل المعالجة محلية

PDFs مشوّهة قد تُثير حالات حافة في المحلل — ضع MCP في صندوق حماية عند معالجة رفوعات غير موثوقة

استكشاف الأخطاء

الأخطاء الشائعة وحلولها

ModuleNotFoundError: tesseract

ثبّت ثنائي Tesseract للنظام: brew install tesseract / apt install tesseract-ocr

تحقق: `tesseract --version`

مخرجات فارغة على PDF

على الأرجح PDF نصية فقط — أعد التشغيل مع ocr=true

تحقق: Check output.metadata.has_text_layer

جداول XLSX تأتي مبعثرة

مرّر اسم الورقة صراحةً: الأداة تدعم معامل sheet

البدائل

Kreuzberg مقابل البدائل

البديل	متى تستخدمها	المقايضة
markdownify-mcp	تريد محوّلًا أخف قائمًا على Node بلا OCR	صيغ أقل، لا حفظ للجداول
Unstructured.io	تحتاج تحليل PDF على مستوى المؤسسة وتقبّل التكلفة السحابية	مدفوع؛ مستضاف سحابيًا

Kreuzberg

لماذا تستخدمه

الميزات الأساسية

عرض مباشر

كيف يبدو في الممارسة

التثبيت

اختر العميل

حالات الاستخدام

استخدامات عملية: Kreuzberg

استخراج الجداول من PDF فوضوي إلى markdown نظيف

المتطلبات الأساسية

الخطوات

المزالق

استيعاب مجلد من مستندات بصيغ مختلطة للفهرسة اللاحقة

المتطلبات الأساسية

الخطوات

المزالق

التركيبات

اجمعها مع خوادم MCP أخرى لتحقيق نتائج x10

الأدوات

ما يوفره هذا الـ MCP

التكلفة والحدود

تكلفة التشغيل

الأمان

الصلاحيات والأسرار ونطاق الأثر

استكشاف الأخطاء

الأخطاء الشائعة وحلولها

البدائل

Kreuzberg مقابل البدائل

المزيد

الموارد