نظرة عامة على التعرف الضوئي على الأحرف باللغة العربية والتطبيقات ذات الصلة
ورقة علمية وصول مفتوح | متاح بتاريخ:25 نوفمبر, 2020 | آخر تعديل:25 نوفمبر, 2020
التعرف الضوئي على الأحرف (OCR) هو مصطلح عام يستخدم لوصف التقنيات التي لديها خاصية التعرف على النص داخل المستندات والصور الممسوحة ضوئيًا للمساعدة في تحويلها إلى تنسيق رقمي. تُستخدم تقنية التعرف الضوئي على الأحرف لتحويل أي نوع من الصور التي تحتوي على نص مكتوب (مكتوب بلوحة مفاتيح أو بخط اليد أو مطبوع) إلى بيانات نصية يمكن قراءتها آليًا. على مدار العقدين الماضيين؛ أصبحت تكنولوجيا التعرف الضوئي على الأحرف أحد مجالات الاهتمام الرئيسية فيما يتعلق بتنفيذ المشاريع المتعلقة برقمنة الوثائق التاريخية (كالصحف والمخطوطات ومشاريع القوانين والوثائق الدستورية والرسائل، وما إلى ذلك). ولقد أصبحت أهمية تقنيات التعرف الضوئي على الأحرف أكثر انتشارًا مع ظهور الإنترنت الذي يشكل موردًا للمعلومات متعددة اللغات بناءً على البيانات النصية الرقمية.
وبينما كانت تخضع تقنية التعرف الضوئي على الأحرف للعديد من التحسينات مع مرور الوقت وحققت دقة تقارب مائة بالمائة في اللغات استنادًا إلى النصوص اللاتينية (مثل الإنجليزية)، برزت هناك تحديات كبيرة في مجال تحسين دقة التعرف الضوئي على الأحرف في بعض اللغات بناءً على نصوص القراءة التي يتم تدوينها من اليمين إلى اليسار (كالعربية والفارسية والأردية وغيرها). تعدّ اللغة العربية اللغة الأم لأكثر من 400 مليون شخص في جميع أنحاء العالم ويمثل القراء الناطقين باللغة العربية نسبة كبيرة من مستخدمي الإنترنت الذين قد يكونون مهتمين بالنفاذ إلى الموارد الرقمية العربية. وبالتالي، فإن أهمية تحسين تقنية التعرف الضوئي على الأحرف باللغة العربية تعتبر أمرًا حيويًّا بالغ الأهمية لتحسين مشاركة المعلومات والمعرفة داخل المجتمع.
تتمثل التحديات الأساسية التي تنطوي على التعرف الضوئي على الأحرف باللغة العربية في حقيقة أنه يصعب تحقيق دقة التعرف بشكل أولي بسبب الخصائص التالية للنص العربي:
- موضع الحرف: قد يكون للحرف العربي من واحد إلى أربعة أشكال فريدة بناءً على موضعه داخل الكلمة (أي منفصل، أو في أول أو وسط أو نهاية الكلمة). فيجب أن يكون حل التعرف الضوئي على الأحرف قادرًا على تحديد الحرف العربي المعني بشكل فعال بغض النظر عن موقعه في الكلمة.
- الحرف بنقطة وبدون نقطة: قد تحتوي بعض الأحرف العربية على نقاط )فوق أو تحت الحرف( والتي يمكن أن تؤثر على مخرجات الأحرف أو الكلمة النهائية. وقد تكون هناك أحرف بنقطة أو نقطتين أو ثلاث نقاط مستخدمة لتحديد الشكل النهائي للكلمة.
- الخط الأساسي للحرف النقطي: يرتبط وجود نقطة داخل الحرف بخط الأساس حيث أن النقطة المستخدمة في الحرف العربي قد تكون موجودة أعلى أو أسفل خط الأساس (عند الاقتضاء). ويعتبر خط الأساس مهمًا في تطوير أنظمة التعرف الضوئي على الأحرف باللغة العربية لأنه يساعد في تصنيف الأحرف العربية إلى فئتين: حرف بنقطة فوق خط الأساس وحرف بنقطة أسفل خط الأساس.
- الحرف المتعرج: من الخصائص المميزة الأخرى للحرف العربي وجود همزة، وهي علامة متعرجة الشكل (ء) مع بعض الأحرف العربية (أحرف العلة: الألف والواو والياء) والتي يمكن أن تشكل تحديات لأنظمة التعرف الضوئي على الأحرف في عملية التعرف على الحرف أو الكلمة بدقة.
- الحرف على شكل حلقة (الحرف المعقوف): العديد من الأحرف العربية لها شكل حلقي (معقوف)، مثل الصاد (ص)، والضاد (ض)، والفاء (ف)، والميم (م) والقاف (ق). وتبرز إحدى عوائق التعرف الضوئي على الأحرف للغة العربية في القدرة على يتعرف بدقة على الأحرف العربية التي تحتوي على شكل حلقة.
- علامات التشكيل: قد تتم كتابة بعض النصوص العربية بعلامات تشكيل مصاحبة لكل حرف مما يجعل من الصعب على برنامج التعرف الضوئي على الأحرف أن يتعرف على الحرف بشكل فعال لأن هذا يؤثر على التحليل البياني للنص أو الكلمات.
على مدى العقود الماضية، عمل الباحثون والعلماء على تطوير قواعد بيانات متنوعة للكلمات العربية المكتوبة بخط اليد لتكون بمثابة مرجع لمطوري التعرف الضوئي على الأحرف لإيجاد حلول لتحديد الأشكال والأحرف النصية والتوفيق بينها في تنسيق نص رقمي. ففي عام 2002، تم توفير قاعدة بيانات للمجتمع حول الكلمات العربية المكتوبة بخط اليد (IFN/ENIT-database). وفي سبتمبر عام 2006، عُقدت قمة حول التعرف على خط اليد للغتين العربية والصينية في كوليدج بارك، ماريلاند في الولايات المتحدة الأمريكية حيث قدم خبراء وباحثون أعمالهم الفعلية المتعلقة بنفس المجال. ومنذ ذلك الوقت، بدأ البحث المكثف حول التعرف على النص العربي وأدى إلى خطوة كبيرة متقدمة إلى يومنا هذا.
التطبيق الأكثر شيوعًا لتقنية التعرف الضوئي على الأحرف هو تحويل المستندات الورقية المطبوعة إلى تنسيق نص رقمي يمكن قراءته آليًا. وبعض مجالات التطبيق الأخرى لتقنية التعرف الضوئي على الأحرف هي كما يلي (على سبيل المثال لا الحصر):
- أتمتة إدخال البيانات
- فهرسة المستندات لمحركات البحث
- التعرف التلقائي على رقم لوحة المركبة
- مسح رمز/ كود القسيمة
- نظام الملفات المكتبية
- متاجر الخدمة الذاتية/ الأكشاك الإلكترونية
- رقمنة الوثائق والكتب والمخطوطات المكتوبة بخط اليد
- التكنولوجيا المساعدة
تلعب تقنية التعرف الضوئي على الأحرف دورًا رئيسيًا في تطوير التكنولوجيا المساعدة مما يسهم في تحسين حياة الأشخاص ذوي الإعاقة. وعلى هذا النحو، يمكن للأشخاص ذوي الإعاقة، وبشكل أساسي الأشخاص ذوي الإعاقة البصرية، استخدام التكنولوجيا المساعدة لقراءة المحتوى الرقمي من خلال الاستخدام الدقيق لتقنية التعرف الضوئي على الأحرف. ومع تحسين تقنية التعرف الضوئي على الأحرف باللغة العربية، يمكن للأشخاص ذوي الإعاقة التمتع بإمكانية أكبر للنفاذ إلى المستندات الرقمية وتحسين نوعية حياتهم عبر التعليم والتوظيف والجوانب الأخرى للحياة اليومية. بالإضافة إلى ذلك، إن توافر النص الرقمي يعد أمرًا ذا أهمية لجعل المعلومات المطبوعة في متناول الأشخاص ذوي الإعاقة لأن ذلك يمكّنهم من إنشاء معلومات بتنسيق آخر قابل للنفاذ مثل الصوت والطباعة بحجم كبير والبرايل. كما يعدّ النص الرقمي مفيدًا بشكل خاص للقرّاء الذين لديهم صعوبات، بما في ذلك أولئك الذين يعانون من صعوبات في التعلم مثل عسر القراءة.
إن لمركز مدى دورٌ هامٌ في تقدم عملية تحسين تقنية التعرف الضوئي على الأحرف باللغة العربية وتطوير حلول مبتكرة قائمة على تقنية التعرف الضوئي على الأحرف. وتبرز جهود مدى في تطوير هذا المجال من خلال دعم المبتكرين ورواد الأعمال ذوي الصلة من خلال برنامج مدى للابتكار لتطوير حلول التكنولوجيا المساعدة الخاصة بهم بنجاح وإعدادهم ليكونوا جاهزين للسوق في قطر والمنطقة العربية. كما يسعى مركز مدى إلى زيادة عدد حلول التكنولوجيا المساعدة العربية المتعلقة بتكنولوجيا المعلومات والاتصالات لخدمة الاحتياجات المتزايدة للأشخاص ذوي الإعاقة في قطر والمنطقة على نحوٍ مناسب.