About ArabicPdf.com


  • Arabic text extraction from Pdf files.
  • Supports 3500+ fonts.
  • أداة استخلاص النصوص العربية من ملفات PDF
  • دعم أكثر من 3500 خط

Problem Background


Portable Document Format (PDF)

  • Invented by Adobe Systems and developed over 20 years, and now is an open standard for electronic document exchange maintained by ISO.
  • When you convert documents, forms, graphics, and web pages to PDF, they look just like they would if printed, in a manner independent of application software, hardware, and operating system.

نبذة عن ال PDF

  • اخترعت من قبل شركة أدوبي وتطورت عبر 20 عاما، وهي الآن مفتوحة المصدر ويتم الاهتمام بها وتطويرها من قبل منظمة الISO ،وتستخدم كوسيلة لنقل الوثائق الاكترونية
  • عند تحويل الملفات النصية أو الصور أو صفحات الإنترنت إلى ملفات PDF ، فإنها تظهر بشكل ثابت يطابق الشكل الذي تظهر به عند الطباعة ، بغض النظر عن البرنامج المستخدم أو نظام التشغيل، وهذه هي ميزتها الأساسية.

Extracting Text from PDF Files

  • We need to get the text out of the PDF files before they can be processed.
  • PDF as a format is not really meant to have text extracted.

استخلاص النصوص من ملفات PDF

  • نحتاج إلى استخلاص النصوص من ملفات الPDF وذلك حتى نتمكن من معالجة هذه النصوص.
  • ولكن الPDF لم يوجد في الحقيقة لاستخراج النصوص وإنما لعرضها.

Extracting Text from Arabic PDF Files

Text extraction from Arabic PDF files can be more challenging for many reasons :
  1. There are many corruptions in Unicode mapping tables for Arabic language, and many Arabic PDF files don't even have the mapping tables, corruptions could also occur in many places of the PDF file as well.
    In order to understand how this happened, we need to notice that although Adobe did set the Pdf standards (and changed it many times), the problem is that many PDF files don't follow the standards and Acrobat (PDF reader) can still show them, so the practical standard is "what Acrobat can show", so the Pdf file could be totally corrupted, but Acrobat still can show it if it contains the right rendering information.
  2. Arabic characters have different shapes depending on their location in a word. Each shape has a different glyph in a font
  3. PDF stores data in presentation (display) order, while text in computers is typically stored in logical order, logical and display orders are opposite for Right to Left (RTL) languages (including Arabic)
  4. Spaces and newlines are not explicitly stored, where spacing is achieved by direct placement of text.

استخلاص النصوص من ملفات PDF العربية

إن استخلاص النصوص من ملفات PDF العربية من الممكن أن يكون أكثر صعوبة لعدد من الأسباب:
  1. هنالك عدد من المشاكل والأخطاء في جداول التحويل إلى النص الأصلي المستخدمة للغة العربية ، كما أن عددا كبيرا من ملفات الPDF العربية لا تحتوي أصلا على جداول تحويل ، بالإضافة إلى أن الأخطاء من الممكن أن تقع في أي مكان من ملف الPDF.
    ولفهم كيف حدث ذلك ، يجب أن نلاحظ أنه بالرغم من أن شركة أدوبي قد وضعت القوانين التي تنظم ملفات الPDF ،فإن المشكلة أن هنالك عددا كبير من ملفات الPDF التي لا تتبع هذه القوانين وبالرغم من ذلك فإن قارئ الPDF مثل برنامج أكروبات يمكنه أن يعرضها دون أية مشكلة ، وبالتالي فإن القانون الحقيقي للPDF هو "أي ملف يستطيع برنامج أكروبات عرضه دون مشاكل".
  2. بالإضافة إلى ذلك فإن الحروف العربية لديها عدد من الأشكال المختلفة بناء على موقعها من الكلمة ، وكل شكل من هذه الأشكال يخزن بشكل مختلف في ملف الخط
  3. كما أن ملفات الPDF تخزن النصوص بترتيب العرض (الشاشة) وهو ترتيب معكوس بالنسبة للترتيب الصحيح للحروف عند القراءة باللغة العربية (أو اللغات التي تكتب من اليمين لليسار).
  4. كما أن المسافات بين الكلمات والأسطر لا تخزن بشكل صريح في ملفات الPDF .