مستوى التقدم الجاري في التعرف الضوئي على الأحرف العربية: الجهود البحثية القطرية
ورقة علمية وصول مفتوح | متاح بتاريخ:26 نوفمبر, 2020 | آخر تعديل:26 نوفمبر, 2020
منذ منتصف الأربعينيات من القرن الماضي، كانت هناك أبحاث ومنشورات مكثفة حول التعرف على الأحرف، وكانت معظم الأعمال المنشورة على الأحرف اللاتينية، بينما ظهرت البحوث حول التعرف على الأحرف اليابانية والصينية في منتصف الستينيات. وعلى الرغم من أن ما يقرب من مليار شخص في جميع أنحاء العالم يستخدمون الأحرف العربية في الكتابة (العربية والفارسية والأردية)، إلا أن أبحاث التعرف على الأحرف العربية، التي بدأت في السبعينيات، تعتبر قليلة ومحدودة.
وقد يعزى ذلك إلى:
- عدم كفاية المجلات والكتب والمؤتمرات والتمويل والتفاعل بين الباحثين.
- نقص المصادر والأدوات مثل قواعد بيانات النص العربي والقواميس وأدوات البرمجة والموظفين الداعمين.
- تأخر بدء التعرف على النص العربي.
- التقنيات التي تم تطويرها للكتابات الأخرى لا يمكن تطبيقها بنجاح على الكتابة العربية بسبب السمات الفريدة للنص العربي.
تحديات التعرف الضوئي على الأحرف العربية
تُكتب اللغة العربية من اليمين إلى اليسار، مما يمثل العديد من التحديات لمطوري تقنية التعرف الضوئي على الأحرف، والتي تشمل: (Al-Badr 1995؛ Attia 2004)
تحدي اتصال الأحرف
لا يمكن كتابة النص العربي إلا بخط متصل، أي أن حروف الحروف متصلة ولا تكتب بشكل متقطع إلا عند وجود أحرف محددة أو في نهاية الكلمة. وهذا يستلزم أن يخضع أي نظام للتعرف الضوئي على الحروف باللغة العربية لمهمة التعرف على الحروف التقليدية وعملية تجزئة للحروف أكثر صرامة (انظر الشكل 1). ولتعقيد الأمور، تعتمد كلتا المهمتين على بعضهما البعض؛ لذلك، يجب أن يتم ذلك في وقت واحد.
الشكل (1): عملية تجزئة حروف الكتابة موضحة بإدخال خطوط عمودية يدويًا في نقاط اتصال حروف الكتابة المناسبة.
تحدي التنقيط
يستخدم التنقيط على نطاق واسع للتمييز بين الأحرف التي تشترك في حرفية متشابهة. ويوضح الشكل (2) اختلافات صغيرة بين الأحرف في نفس المجموعة. وسواءً تم التخلص من النقاط قبل عملية التعرف، أو تم استخراج ميزات التعرف من النص المنقط، فإن التنقيط يعد مجالًا للارتباك، وبالتالي، يؤدي ذلك إلى أخطاء في التعرف في أنظمة التعرف الضوئي على الحروف المكتوبة بالخط العربي، وخاصة عند استخدام أجهزة مثل آلات التصوير.
الشكل (2): أمثلة على مجموعات أحرف التنقيط المتباينة.
تحدي حالات حروف الكتابة المتعددة
نظرًا للترابط في قواعد الإملاء العربية، فإنه يمكن لنفس الحرف أن يُكتب بأشكال مختلفة وفقًا لموقعه داخل مقطع الكلمة العربية (في البداية أو الوسط أو النهاية، أو بشكل منفصل) كما يتضح من المتغيرات الأربعة للحرف العربي “ع” على النحو المبين بالخط العريض في الشكل (3).
الشكل (3): الحرف “ع” في مواقعة الأربع: بداية الكلمة ووسطها ونهايتها وبشكل منفصل.
تحدى الوصلات (التوصيل)
يتم تمثيل تركيبات معينة من الأحرف في مواقع معينة من مقاطع الكلمات من خلال آلية معينة تسمى وصل الحروف وجدت إلى حد ما في معظم الخطوط العربية. يحتوي الخط العربي التقليدي على حوالي 220 شكلًا للحروف، بينما يحتوي الخط العربي المبسط على حوالي 151. مقارنة بالإنجليزية التي تحتوي على 40 أو 50 شكلُا للحروف. أي أن مجموعة حروف الكتابة الأوسع تعني غموضًا أكبر بالنسبة لمنهجية التعرف نفسها؛ وبالتالي، تؤدي للمزيد من الارتباك. ويوضح الشكل (4) بعض الحروف المركبة في اللغة العربية التقليدية.
الشكل (4): بعض وصلات الحروف في الخطوط العربية التقليدية.
تحدي التداخل
قد تتداخل الأحرف في الكلمة عموديًا حتى دون لمس، كما هو مبين في الشكل (5).
الشكل (5): بعض الحروف المتداخلة في الخط العربي “دمشق”.
تحدي اختلاف الحجم
لا تحتوي الحروف العربية المختلفة على ارتفاع ثابت أو عرض ثابت. بالإضافة إلى ذلك، لا يكون للأحجام المختلفة لنفس الخط مقياس خطي مع ارتفاع الخط الفعلي كما أن الخطوط المختلفة التي لها نفس الحجم لا يكون لها ارتفاع خط ثابت.
تحدي علامات التشكيل
يتم استخدام علامات التشكيل العربية لتساعد في توضيح محتوى النص وحل الغموض اللغوي. وتكمن مشكلة علامات التشكيل باستخدام تقنية التعرف الضوئي على الأحرف في الخط العربي في أن اتجاه تدفقها عمودي بينما اتجاه الكتابة الرئيسي للنص العربي يكون أفقيًا من اليمين إلى اليسار (انظر الشكل (6)). تعتبر النقاط وعلامات التشكيل المتشابهة مصدر ارتباك في أنظمة التعرف الضوئي على الأحرف المكتوبة؛ ونظرًا لحجمها الأكبر نسبيًا، فإنه تتم معالجتها مسبقًا.
الشكل (6): نص عربي مع علامات التشكيل.
الجهود البحثية القطرية
يقود فريق تقنيات اللغة العربية في معهد قطر لبحوث الحوسبة الأبحاث حول التعرف الضوئي على الأحرف في قطر. فهم يكرسون جهودهم لتعزيز اللغة العربية من خلال إجراء أبحاث في تقنيات اللغة العربية على مستوى عالمي. ويعتبر ضمان ازدهار اللغة العربية في العالم الرقمي مجال التركيز الأساسي، وتتناول بعض المشاريع البحثية الحالية التحديات المتعلقة بنقص المحتوى واستخراج ذلك المحتوى.
ويسعى معهد قطر لبحوث الحوسبة إلى أن يصبح رائدًا إقليميًّا وعالميًّا في تقنيات اللغة العربية – في مجالات البحث واسترداد المعلومات وتحليلها ومعالجة اللغات المتعددة والترجمة الآلية المتقدمة وقيادة الجهود لزيادة وإثراء محتوى اللغة العربية عبر الإنترنت.
بالإضافة إلى ذلك، تدرس مبادرات معهد قطر لبحوث الحوسبة التحديات في استرداد المحتوى وجعله متاحًا، وتمكين تدفق المعلومات عبر حواجز اللغة. وفي هذا الصدد، يجري تطوير معالجة اللغة العربية في مجال البحث مثل استخدام تحليل الكلمات الصرفي والتعرف على العناصر المسماة، وتكنولوجيا تعلم البيانات لاكتشاف المحتوى ذي الصلة لتحليل أكثر تفصيلاً. كما تم تطوير أدوات التدقيق مثل التدقيق المطبعي وتحديد اللغة للهجات العربية المحلية والعربية المكتوبة باستخدام الأحرف اللاتينية.
يبذل معهد قطر لبحوث الحوسبة جهدًا كبيرًا في تحسين الترجمة الآلية، بالإضافة إلى الجمع بين برنامج “تحويل الكلام إلى نص” باللغة العربية الذي يسمح – مع النسخ الفوري لمقاطع الفيديو ونظام الترجمة الآلية – بالوصول إلى بث الأخبار ونشرها عبر الويب. وسيركز البحث المستقبلي على تطبيقات مثل ترجمة المحاضرات.
ولقد أنشأ معهد قطر لبحوث الحوسبة مشاريع تتعلق بالتعليم الإلكتروني وإتاحة الوصول إلى المواد بلغة غير اللغة الأم. ويعد تطوير قارئ إلكتروني مدعوم باللغة العربية ومعلم لغة مساعد من الأمثلة التي ستؤثر بشكل مباشر على المجتمع والتعلم.
وتشمل بعض المشاريع التي تديرها فريق تقنيات اللغة العربية في معهد قطر لبحوث الحوسبة ما يلي:
QATIP – نظام التعرف البصري على الأحرف لمجموعات التراث العربي في المكتبات
عمل فريق معهد قطر لبحوث الحوسبة على نظام QATIP الموجه للمستخدم النهائي للتعرف الضوئي على الأحرف في الوثائق. يعتمد التعرف على مجموعة أدوات “كالدي” Kaldi وتطبيع صورة النص المتطورة. تتكون واجهة QATIP للمكتبات من واجهة مستخدم رسومية لإضافة الوظائف ومراقبتها وواجهة برمجة تطبيقات ويب للوصول الآلي. كما أن المعهد يستخدم نهجًا جديدًا لنمذجة اللغة ونمذجة الوصلات بين الأحرف من أجل التعرف الضوئي على الحروف باللغة العربية بصفة مستمرة. تم اختبار نظام QATIP على طبعة قديمة ومخطوطة تاريخية وتم تقديم تقريرًا يشتمل على تحسينات جوهرية، على سبيل المثال، كان معدل الخطأ في الأحرف بنسبة 12.6% مع واجهة QATIP مقارنة بنسبة 51.8% مع أفضل منتج في مجال التعرف الضوئي على الأحرف (Stahlberg 2015، 2016).
أداة المعالجة PrepOCRessor
تم تطوير أداة المعالجة الخاصة بمعهد قطر لبحوث الحوسبة المستخدمة في مجال التعرف الضوئي على الأحرف العربية من أجل إجراء المعالجة المسبقة لصور المستندات للتعرف الضوئي على الأحرف. وتم ربط مجموعة من عمليات معالجة الصور بحيث يعمل ناتج كل عملية كمدخل للعملية التالية، وتدعم الأداة معالجة الدفعات للتوازي العالي وقابلية التوسع. والغرض من PrepOCRessor هو استخدامه مع مجموعة أدوات التعرف Kaldi ودعم تنسيقات الملفات لمجموعات الميزات (.ark,t) والمحاذاة القسرية (.al) لتحقيق تكامل سلس. وعلى الرغم من التركيز على النص العربي، فقد تم استخدام الأداة بنجاح لأنظمة كتابة أخرى، على سبيل المثال اللغة اللاتينية في مسابقة ICDAR2015 HTRtS للتعرف الضوئي على الأحرف في المستندات التاريخية.
المراجع:
Stahlberg, Felix, and Stephan Vogel. “The QCRI Recognition System for Handwritten Arabic.” In Proceedings of the 18th International Conference on Image Analysis and Processing (ICIAP 2015). Genova, Italy, September 2015.
Stahlberg, Felix, and Stephan Vogel. “QATIP – An Optical Character Recognition System for Arabic Heritage Collections in Libraries.” In DAS, 2016.
Al-Badr, B., Mahmoud, S.A. “Survey and Bibliography of Arabic Optical Text Recognition.” Elsevier Science, Signal Processing, 41(1) (1995) pp. 49-77.