تقنية التعرف الضوئي على الأحرف العربية في مكتبة قطر الوطنية
ورقة علمية وصول مفتوح | متاح بتاريخ:25 نوفمبر, 2020 | آخر تعديل:25 نوفمبر, 2020
التعرف الضوئي على الأحرف هو عملية استخراج النص من الصور، التي أصبحت شائعة من حيث الاستخدام والبحث، حيث إنها تشمل مجالات علمية متعددة، بما في ذلك معالجة الصور والتعلم الآلي واسترجاع المعلومات والذكاء الاصطناعي.
ومن منظور الشخص العادي، هي تمثل الطريقة الوحيدة لنسخ النص واستخدامه وفهرسته من صورة ممسوحة ضوئيًا. وتختلف الفوائد من عملية النسخ/ اللصق البسيطة والاقتباس والبحث والتعليق النصي التوضيحي ووضع العلامات. بالإضافة إلى ذلك، فهي تتماشى تمامًا مع الخوارزميات الحديثة لاستخراج النص والبحث الصرفي والترجمة التلقائية للنص وتلخيص النص بالإضافة إلى البيانات المرتبطة وأدوات الفهرسة.
ويعد استخدام صور التعرف الضوئي على الأحرف القيمة المضافة النهائية للمستندات الممسوحة ضوئيًا – فهو يضفي حيويةً على المستندات ويسمح للمستخدمين باكتشاف كل جزء من المعلومات المخزنة بداخلها.
ففي مكتبة قطر الوطنية تم تطوير تقنيات وخوارزميات متعددة لنص التعرف الضوئي على الأحرف، تتضمن هذه الأساليب كلاً من المشغلين البشريين ومجموعات تطوير البرمجيات، بالإضافة إلى واجهات برمجة التطبيقات. كما تم بناء نظامٍ دقيقٍ وقابل للتطوير من شأنه تبسيط العملية بطريقة فعالة، حيث ينسق الأدوار والمسؤوليات بين البشر والآلات للوصول إلى أقصى جودة للنص المستخرج.
ففي الوقت الذي نستخدم فيه تقنية التعرف الضوئي على الأحرف لمجموعة واسعة من اللغات، نشعر بالفخر بإنجازاتنا فيما يتعلق بالنص العربي رغم أنه لا يزال النص العربي يمثل تحديًا هائلاً منذ بداية خوارزميات التعلم الآلي، وحتى مع أحدث برامج التعرف الضوئي على الأحرف. فلقد كانت الأشكال والأحجام المتعددة للخط العربي، بالإضافة إلى علامات التشكيل واستخدام النقاط والأحرف المخطوطة وتغيير أشكال الأحرف بناءً على موقعها داخل الكلمة، تشكل كلها عوامل قللت من جودة النص الخاضع للتعرف الضوئي على الأحرف.
الشكل 1: تحديات التعرف الضوئي على الأحرف العربية
لقد قامت المكتبة من خلال استخدام الأدوات والخوارزميات المناسبة ببناء مكتبات عالمية تغطي 99% من النص العربي المطبوع بناءً على الشكل والجودة والحجم، كما تم تصميم آلية سير عمل واضحة لتحسين جودة الصور في البداية من خلال زيادة عدد النقاط لكل بوصة، وصقل حواف الأحرف والصور وتحسين الطباعة بحيث تظهر واضحة وخالية من أي شوائب، وذلك من خلال عملية تحسين الصور هذه ومكتبات . كما أن دقة التعرف الضوئي على الأحرف أصبحت تحقق دقة في مستوى الأحرف بنسبة 99 بالمائة باللغة العربية.
الشكل 2: تصنيف الشكل
ولقد سمح ذلك لمكتبة قطر الوطنية بفهرسة النص الناتج باستخدام محللات معجمية نصية عربية قوية ومعقدة، وتم تقديم ذلك للعملاء بمجرد نقرة واحدة فقط. كل ما يحتاجه المستفيدون هو الوصول إلى المستودع الرقمي للمكتبة والاستمتاع بميزة “البحث الداخلي”، والتي ستساعد بشكل كبير في تحسين جودة البحث في الدراسات العربية، مثل الفن والتاريخ والعلوم والفلسفة، على سبيل المثال لا الحصر.
الشكل 3: سير عملية التعرف على النص العربي
تتيح أحدث وسائل الرقمنة بالمكتبة المحتوى العربي من مكتبة قطر الوطنية التراثية والمؤسسات الأخرى على الإنترنت، مما يزيد من توفر المحتوى العربي في جميع أنحاء العالم.
وتستفيد المكتبة من خبرة فريق دولي مدرب تدريبًا كاملًا ومختبرات مجهزة بأحدث التقنيات للقيام بعمليات مختلفة للحفظ الرقمي. كما تقدم المكتبة خدمات الرقمنة الواسعة والمسح الضوئي كبير الحجم وتصميم الصور والرقمنة في الموقع وإنشاء كتب النشر الإلكترونية E-Pub والتعرف الضوئي على الأحرف والتصوير ثلاثي الأبعاد والرقمنة السمعية والبصرية والحفظ على المدى الطويل.
بالإضافة إلى الجهود المتواصلة لرقمنة مجموعات المكتبة من الكتب النادرة والمخطوطات والخرائط والصور الفوتوغرافية، يعمل مركز الرقمنة بالمكتبة على عمليات الرقمنة ومشاريع التعرف الضوئي على الأحرف باللغة العربية مع مجموعات التراث الأخرى في دولة قطر والمؤسسات الدولية، بما في ذلك:
- مشروع جامعة نيويورك: يطبق هذا المشروع المشترك التعرف البصري على الأحرف على أكثر من 8000 كتاب عربي في مجموعات مكتبات جامعة نيويورك، والتي ستكون متاحة أيضًا على المنصات الإلكترونية لمكتبة قطر الوطنية.
- قاموس الدوحة التاريخي للغة العربية: تساهم المكتبة في مجال التعرف الضوئي على الأحرف العربية، مما يساعد في البحث في أصل الكلمات العربية ومعانيها.
- متحف الفن الإسلامي: تم تحديد أوجه التعاون الممكنة من خلال مذكرة تفاهم، بما في ذلك مشروع رقمنة 164 من أندر الكتب والمخطوطات في المتحف بالإضافة إلى مجموعات المكتبات، بما في ذلك التعرف الضوئي على الأحرف اللاتينية.
- مجموعة خيول الشقب: قامت المكتبة برقمنة أكثر من 50,000 صورة من مجموعة خيول الشقب.
- الأرشيف العثماني: تمت معالجة 1600 صورة رقمية لوثائق التراث المتعلقة بمنطقة الخليج من الأرشيف العثماني لإتاحتها على منصات المكتبة الإلكترونية.
- مجموعة صور العمارة التقليدية في قطر: قامت المكتبة برقمنة مجموعة من 1793 صورة فوتوغرافية من بعثة أثرية فرنسية عام 1985 إلى قطر والتي أنتجت سجلاً شاملاً للعمارة التقليدية في القرن التاسع عشر.
يتبع مركز الرقمنة أفضل الممارسات والمبادئ التوجيهية الدولية، بما في ذلك: مبادرة المبادئ التوجيهية للرقمنة للوكالات الفيدرالية وإرشادات للصور المحافظة، وأيزو ISO- 19264، وإرشادات الاتحاد الدولي لجمعيات ومؤسسات المكتبات (إفلا) لمشاريع الرقمنة. وقد مكن ذلك المكتبة من رقمنة 10,277367 صفحة من مجموعات مختلفة بما في ذلك 4,957,546 صفحة عربية من مجموعة التراث بمكتبة قطر الوطنية و2,782,016 صفحة من المجموعة العربية على الإنترنت لجامعة نيويورك.
تلعب المكتبات دورًا مهمًا في الحفاظ على التراث للأجيال القادمة، والرقمنة وتحرز عملياتها المتطورة تقدمًا كبيرًا في سبيل ضمان القيام بذلك. كما تلتزم مكتبة قطر الوطنية بالحفاظ على التراث ليس فقط في المنطقة ولكن على مستوى العالم الإسلامي ككل. لقد قطعنا شوطًا طويلاً في بناء عملية موثوقة لرقمنة المحتوى العربي باستخدام تقنية التعرف الضوئي على الأحرف لنشر المعرفة والتراث العربي الثري، ونحن ملتزمون بالعمل بجد لتحقيق هذا الهدف.
هاني عبد اللطيف الصاوي
رئيس وحدة الرقمنة في مكتبة قطر الوطنية