كيفية استيراد مجلد من ملفات PDF إلى قاعدة معرفة markdown
متى تستخدمه: عندما تملك 50 ورقة بحثية بصيغة PDF وتريد نصًا نظيفًا لتضمينه
المتطلبات الأساسية
- pnpm — npm i -g pnpm
- التثبيت والتشغيل — git clone the repo, pnpm install, pnpm start
الخطوات
-
عدّد الملفاتاعدد كل ملفات .pdf الموجودة في /library/papers/.✓ تم النسخ→ قائمة بالمسارات
-
تحويل دفعيلكل ملف، استدعِ pdf-to-markdown. اكتب الناتج في /library/markdown/<same-name>.md.✓ تم النسخ→ ظهور ملفات markdown
-
تحقق من واحدأظهر لي أول 500 حرف من /library/markdown/attention-is-all-you-need.md.✓ تم النسخ→ markdown مقروء بدون آثار PDF
النتيجة: شجرة /markdown/ متوازية جاهزة للتضمين
المزالق
- ملفات PDF الممسوحة ضوئيًا (التي تحتوي على صور فقط) تنتج markdown فارغة — قم بمعالجة OCR لملفات PDF الممسوحة ضوئيًا قبل التحويل
- ملفات PDF التي تحتوي على الكثير من الرموز الرياضية تفقد المعادلات — بخصوص الرياضيات، جرب الدمج مع Mathpix أو نموذج nougat OCR بشكل منفصل