نظرة عامة على التكنولوجيا العربية لتحويل النص إلى كلام

نظرة عامة على التكنولوجيا العربية لتحويل النص إلى كلام

Mada Center

ورقة علمية وصول مفتوح | متاح بتاريخ:04 مارس, 2021 | آخر تعديل:04 مارس, 2021

نفاذ

نفاذ 16

نظرة عامة على التكنولوجيا العربية لتحويل النص إلى كلام

أصبحت الأجهزة الإلكترونية في الوقت الحاضر أكثر قدرة على إيصال المعلومات على شكل أصوات، مما يجعلها أكثر قدرة على التفاعل مع البشر. ونظرًا لأن الأجهزة الناطقة تكتسب مكانًة بارزة في حياتنا اليومية وخاصة للأشخاص ذوي الإعاقة، فمن المهم جداً أن تتمتع هذه التقنيات بقدرة على الكلام مماثلة للبشر. كما تؤثر جودة الإدراك الحسي لمخرجات برمجيات تحويل النص إلى كلام (TTS) على مدى قبول الناس لهذه الأنظمة. ولهذا السبب، يسعى الباحثون في مجال تحويل النص إلى كلام  إلى جعل الكلام الاصطناعي أكثر طبيعية. ويوجد في الأسواق العديد من أنظمة تحويل النص إلى كلام والتي تختلف من حيث الجودة والتكنولوجيا.

وبما أنها تعتبر من أدوات التكنولوجيا المساعدة، فقد تم تصميم برامج تحويل النص إلى كلام (TTS) لدعم الأشخاص الذين يواجهون صعوبات في قراءة النصوص المكتوبة. ويمكن أن تشمل إعاقات القراءة الشائعة العمى أو عسر القراءة أو أي إعاقة بصرية أو إعاقة في التعلم أو حالة جسدية أخرى تعيق القدرة على القراءة. ومع ذلك، يمكن لأشخاص آخرين الاستفادة من تقنية تحويل النص إلى كلام، مثل الأطفال المصابين باضطراب طيف التوحّد، واضطراب نقص الانتباه وفرط الحركة (ADHD) أو ذوي الإعاقة الذهنية.

يعد فيستيفال (Festival ( أحد أكثر أنظمة تحويل النص إلى كلام شيوعًا، وهو يستخدم تقنية صنع الكلام القائمة على “نموذج ماركوف المخفي”( Hidden Markov Model). كما يوفر العديد من الأدوات والموارد لإنشاء برامج تحويل النص إلى كلام. ويسمح هذا النظام بإنشاء تطبيقات كاملة لتحويل النص إلى كلام من خلال مجموعة APIs: مترجم أوامر لغة البرمجة  (Scheme) ، مكتبة ++ C ، حزم جافا Java ، وواجهة Emacs. يدعم فيستيفال (Festival ( عدة لغات، وهو متوفر حاليًا باللغتين الإنجليزية والإسبانية. وقد تم إنشاء العديد من التطبيقات العربية مفتوحة المصدر لتحويل النص إلى كلام باستخدام هذا النظام وهي متاحة مجانًا على شبكة GitHub.

تعد برمجية “صخر” لتحويل النص إلى كلام رائدة في مجال صناعة صوت عربي طبيعي يشبه صوت الإنسان. وتقدم صخر برامج لتحويل النص إلى كلام منطوق باللغة العربية (TTS) والتعرف التلقائي على الكلام (ASR). كما تستفيد صخر في تطوير برمجياتها من خبرة 28 عامًا من البحث والتطوير في معالجة اللغة العربية الطبيعية (NLP). وتعتبر هذه البحوث بالغة الأهمية للتغلب على تحديات تحويل النص إلى كلام منطوق بالعربية، مثل النقص في توافر اللهجات وعلامات الترقيم.

بشكل عام، يوجد هناك محركات تجارية إضافية مثل ” Amazon Polly” و “Google Tacotron ” و “IBM  Watson Text to Speech “. Amazon Polly هي خدمة تقوم بتركيب الكلام من النص، مما يسمح للمطورين بإنشاء تطبيقات متكلمة، وتطوير فئات جديدة تمامًا من البرامج والمنتجات التي تدعم الكلام. ويستخدم محرك تحويل النص إلى كلام الخاص بشركة ” Polly ” تقنيات التعلم العميق المتقدمة (deep learning) لتصنيع الكلام الطبيعي الذي يشبه صوت الإنسان. كما يقدم عشرات الأصوات النابضة بالحياة من مجموعة واسعة من اللغات. ويدعم الصوت القياسي في “Polly ” اللغة العربية. ومع ذلك، لم يتم تضمين اللغة العربية بعد في الأصوات الطبيعية الجديدة التي تستخدم التقنية العصبية الجديدة لتحويل النص إلى كلام (NTTS)، والتي توفر تحسينات متقدمة في جودة الكلام من خلال نهج التعلم الآلي الجديد.

من جهة أخرى، يعد برنامج أكابيلا ” Acapela ” أحد أفضل برامج تحويل النص إلى كلام. ويوفر هذا البرنامج مجموعة كبيرة من الأصوات التي تغطي 30 لغة مختلفة بما في ذلك العربية. كما يمكن شراء أصوات مختارة في إصدارات عاطفية خاصة تتضمن اختلافات متعددة للحالات المزاجية أو وجهات النظر المختلفة إضافة إلى توفر أصوات الأطفال. ويوفر ” Acapella ” أدوات تطوير كثيرة لمطوري البرامج تغطي تطبيقات الهاتف المحمول بالإضافة إلى تطبيقات سطح المكتب والخدمات السحابية.

 

 

 

 

 

 

 

Share this