الجهود البحثية في مجال تكنولوجيا تحويل النص إلى كلام باللغة العربية في دولة قطر

الجهود البحثية في مجال تكنولوجيا تحويل النص إلى كلام باللغة العربية في دولة قطر

Mada Center

ورقة علمية وصول مفتوح | متاح بتاريخ:04 مارس, 2021 | آخر تعديل:04 مارس, 2021

نفاذنفاذ 16

تستخدم تقنية تحويل النص إلى كلام (TTS) آلية تركيب الكلام لإنتاج الكلام المنطوق. حيث يقوم نظام تركيب الكلام بتحويل التمثيلات اللغوية الرمزية إلى صوت بالاقتران مع حل آخر (عادةً ما يكون برنامجًا)  يوزع مدخلات النص الخام ويخصص لكل منها النسخة الصوتية الخاصة به عن طريق تمييز وتقسيم المدخلات النصية إلى كلمات وجمل وعلامات ترقيم ذات صلة. وعلى مدار العقدين الماضيين، أصبح تحويل النص إلى كلام مجال اهتمام رئيسي نظرًا لاستخدامه المحتمل في مختلف المجالات مثل التكنولوجيا المساعدة والبرامج التعليمية التي تتكون من مخرجات الوسائط المتعددة والحلول التفاعلية ذات الصلة. وبالمثل، تحسنت جودة تحويل النص إلى كلام بشكل ملحوظ بمرور الوقت حيث أصبحت تماثل الصوت البشري الطبيعي. كما أن هناك لجوانب مختلفة لقياس جودة مخرجات تحويل النص إلى كلام:

  • النطق الطبيعي: إلى أي درجة يكون الكلام المنطوق الذي يتم إنشاؤه أقرب ما يكون لصوت الإنسان من حيث توقيته الزمني ونطقه وقدرته على إظهار العواطف.
  • الوضوح: جودة الصوت المنتج، أو درجة وضوح النطق الصوتي لكل كلمة في الجملة.
  • تفضيلات المستخدمين: إعجاب المستخدمين النهائيين بنظام معين لتحويل النص إلى كلام أكثر من البدائل الأخرى المتاحة، ويتأثر جانب تفضيل المستخدمين وجانب النطق الطبيعي بعامل واحد أو بجميع العوامل التالية مجتمعة: نوع نظام تحويل النص إلى كلام وجودة التعبير والصوت.
  • قابلية الفهم: درجة إمكانية تفسير مخرجات الكلام.

تم تحقيق العديد من النجاحات في ما يتصل بمحرك تحويل النص إلى كلام (TTS) على مدار العقد الماضي. ولعبت تقنية تحويل النص إلى كلام دورًا رئيسيًا في تطوير التقنيات للمكفوفين وضعاف البصر لأنها تسمح بقراءة النص من شاشة العرض. ومن جهة أخرى، فقد تم إجراء معظم الأبحاث حول تحويل النص إلى كلام بلغات مثل الإنجليزية والفرنسية، في حين لم يتم العمل على العديد من اللغات الأخرى، مثل العربية، بشكل كبير حتى العقد الأخير. ولا يزال من الممكن اعتبار مجال تحويل النص إلى كلام باللغة العربية في مراحله الأولى من التطور مقارنة باللغات اللاتينية الأخرى.

مكونات نظام تحويل النص إلى كلام

يتكون نظام تحويل النص إلى كلام من مكونين رئيسيين هما محرك معالجة اللغة الطبيعية (NLP) ومعالج الإشارات الرقمية (DSP). وتسمى اللغة الطبيعية الناتجة عن التفاعل بين أجهزة الكمبيوتر والإنسان معالجة اللغة الطبيعية (NLP) وهي فرع من فروع الذكاء الاصطناعي. حيث يقوم معالج اللغة الطبيعية (NLP) بقراءة وفك تشفير وتفسير اللغات البشرية، وهو الأمر الذي يتم عادة من خلال التعلم الآلي. كما أن هناك أربعة مكونات رئيسية في معالج اللغة الطبيعية وهي وحدة معالجة النص ومحلل النص ووحدة النطق، ومولد طريقة اللفظ.

Major Components of NLP Arabic

الشكل 1: المكونات الرئيسية لنظام تحويل النص إلى كلام

يعد معالج الإشارات الرقمية (DSP) مكونًا أساسياً لنظام تحويل النص إلى كلام، حيث أنه يقوم بتحويل النسخة الصوتية للنص ومعلوماتها العامة إلى صوت رقمي من خلال النماذج الرياضية والخوارزميات والأساليب الحسابية لتقديم كلام منطوق يشبه الكلام الطبيعي. وتختلف الخوارزمية الخاصة بتوليد الصوت الرقمي بناءً على المتطلبات والتعقيد والتكنولوجيا المستخدمة. ويقوم معالج الإشارات الرقمية في النهاية بتحويل المعلومات الرمزية التي تتم معالجتها من محرك معالجة اللغة الطبيعية إلى كلام منطوق.

تحديات تحويل النص إلى كلام العربية

بالإضافة إلى التحديات العامة التي تواجه عملية تطوير حلول تحويل النص إلى كلام، فإن تطوير حلول باللغة العربية لتحويل النص إلى كلام يفرض تحديات إضافية كبيرة تتمثل بما يلي:

  • التشكيل

اللغة العربية هي لغة تتميز باستخدامها لنظام تشكيل معقد. وغالبًا ما تتجاهل النصوص العربية المكتوبة وضع التشكيل المفصلة للأحرف، الأمر الذي يؤدي إلى عدم توفر المعلومات الأساسية حول طريقة نطقها بشكل صحيح من قبل نظام تحويل النص إلى كلام. ويعد عدم وجود التشكيل مصدر إرباك للأنظمة الحاسوبية مما يضيف الغموض لعمليات تحليل النص وتوليد الصوت. ومن هذا المنطلق، فإنه يجب تشكيل كل حرف في الكلمة العربية بعلامات التشكيل التي تعطي معلومات حول الطريقة الصحيحة لنطق هذه الكلمة. وبالإضافة إلى ذلك، فإن النطق الصحيح للكلمة لا يكون واضحًا دائماً من تهجئتها، فهناك العديد من الكلمات التي تنطق بطرق مختلفة اعتماداً على السياق اللغوي.

  • اللهجات

إن اللغة العربية هي اللغة المستخدمة في أكثر من 23 دولة من قبل أكثر من 300 مليون شخص حول العالم. ويعني هذا الانتشار الجغرافي والديموغرافي الكبير للناطقين باللغة العربية أن هذه اللغة يتم التحدث بها من قبل مجموعات من السكان متنوعة اجتماعياً وثقافياً وبلهجات مختلفة. وتشكل التنوعات في اللهجات مشكلة لنظام تحويل النص إلى كلام، حيث سيتعين عليه تغيير مخرجات الكلام بناءً على نطق اللهجة المعنية. وسيكون لكل لهجة عدد محدود نسبيًا من المستخدمين من مناطق معينة حيث تستخدم هذه اللهجة. وبالإضافة إلى اللهجات المتنوعة، فإن أنظمة تحويل النص إلى كلام ستنطق اللغة العربية وفق اللغة العربية القياسية الحديثة (MSA). ومن المعلوم أن فهم اللغة العربية الفصحى أمر ممكن بشكل أساسي للأفراد ذوي المستويات الأعلى نسبيًا من معرفة القراءة والكتابة، ولكنه قد يكون صعباً على الآخرين ممن لا يقدرون على ذلك، مما يحد من عدد المستخدمين الذين قد يستخدمون أنظمة تحويل النص إلى كلام بالفصحى. وبالتالي، فإن تطوير تحويل النص إلى كلام باللغة العربية سيشمل إنشاء أنظمة تحويل النص إلى كلام تدعم لهجات متعددة إضافة إلى اللغة الفصحى، علماً بأن كل منها لديه قاعدة مستخدمين محدودة.

الجهود البحثية القطرية

 مولد طريقة اللفظ والتشديد اللفظي في تكنولوجيا تحويل النص إلى كلام باللغة العربية

ساهم فريق من جامعة قطر في العمل على تطوير مولد طريقة اللفظ والتجويد اللفظي في تكنولوجيا تحويل النص إلى كلام باللغة العربية. وتضمن هذا المشروع البحثي استخدام تحليل لغوي دقيق للمساعدة في إنتاج مخرجات منطوقة تكون واضحة وطبيعية لنص عربي تعليمي.

وقام فريق من جامعة قطر بتطوير محرك معالجة اللغة الطبيعية (NLP) والذي يتضمن مولد طريقة اللفظ لتحويل النص العربي المكتوب إلى نص من الرموز الصوتية وطريقة اللفظ. حيث أن مولد طريقة اللفظ هو الوحدة النهائية لمحرك معالجة اللغة الطبيعية والتي تستمد معلومات درجة الصوت تلقائيًا. وقد تم استخدام نظام (MBROLA) في هذا المحرك وهو عبارة عن نظام ذو قاعدة ثنائية الصوت لإنتاج موجات الصوت.

تم تصميم هذا النظام لتحويل النص إلى كلام باللغة العربية القياسية الحديثة (MSA)، حيث يولد هذا النظام الكلام من النص العربي من خلال القيام بالمهام التالية:

  • وضع علامات التشكيل على النص المكتوب.
  • الترميز الصوتي التلقائي.
  • التحليل النحوي من أجل تحديد محيط طبقات الصوت.
  • حساب وإنتاج مستوى حدة الصوت لنطق الجمل.
  • الربط بين محرك معالجة اللغة الطبيعية و نظام (MBROLA).

Rizk, Y. Mohanna. “Arabic Text to Speech Synthesizer: Arabic Letter to Sound Rules”. In International Review on Computers and Software (I.RE.CO.S.), January 2011

H. Mansour. “ArabicProsody TTS – Intonation and stress generator for Arabic text-to-speech” In Intonational Variation in Arabic (IVA09), UK, September 2009

 

 

 

Share this