فهم تحديات إنشاء مجموعة بيانات لغة الإشارة لنظام التقاط الحركة: منظور تقني

فهم تحديات إنشاء مجموعة بيانات لغة الإشارة لنظام التقاط الحركة: منظور تقني

سامي سدراتي وأسامة الغول

ورقة علمية Online وصول مفتوح | متاح بتاريخ:23 مايو, 2022 | آخر تعديل:23 مايو, 2022

ملفّ PDF نفاذنفاذ 20

الملخص

لغة الإشارة (SL) هي لغة بصرية بنظام نحوي يختلف عن اللغة المنطوقة يستخدمها الأفراد الصم وضعاف السمع كقناة اتصال أساسية. ويمثل نقص المعلومات المترجمة من النص العربي إلى لغة الإشارة حاجزًا كبيرًا. إنه يخلق فجوة بين مجتمعات الصم والمجتمع، وتكون هذه الفجوة أوسع داخل مجتمعات الصم ذات مهارات القراءة والكتابة المنخفضة. ولسد هذه الفجوة، في عام 2021، وكجزء من مشروع لغة الإشارة جملة، طوّر مركز مدى “بو حمد”، أول شخصية افتراضية رقمية (أفاتار) تستخدم لغة الإشارة القطرية لخدمة هذا المجتمع والمساعدة في ترجمة النصوص العربية بلغة الإشارة. وبهدف تحسين الأداء الرقمي ومنح الحياة لهذه الشخصية، تم استخدام نظام التقاط الحركة (mocap) لتسجيل أداء مترجمي لغة الإشارة المحترفين الذين يترجمون الكلمات والجمل العربية الشائعة والمستخدمة في الغالب. وتم تحويل هذه التسجيلات بعد ذلك إلى بيانات رسوم متحركة رقمية لزيادة قياسها وتحسينها كمجموعة بيانات تدريبية للتعلم الآلي (ML). ويعد استخدام نظام التقاط الحركة حاليًا الطريقة الأكثر فاعلية لتحقيق قبول أوسع بين الصم وضعاف السمع من خلال محاكاة الحركة الطبيعية للمترجم الحقيقي. وتلخص هذه المقالة العملية والتحديات الفنية التي واجهت استخدام البيانات الأولية من نظام التقاط الحركة في الشخصية الافتراضية على شكل مجموعة محسّنة من الحركات لبناء مجموعة البيانات.

المقدمة

نظام التقاط الحركة هو تسجيل رقمي لحركة الأشياء أو الأشخاص [1]. وفي هذه الحالة الأخيرة، يتم التسجيل بمساعدة المستشعرات الموضوعة داخل بدلة مصنوعة خصيصًا (“Inertial Mocap”) أو عن طريق وضع علامات على جسم الشخص وتسجيل حركته بكاميرات خاصة (“Optical Mocap”). كما أن هناك تقنيات أخرى لنظام التقاط الحركة حيث تقوم الكاميرات المتخصصة المزودة بأجهزة استشعار للعمق بالتقاط حركة الشخص. ويعد نظام التقاط الحركة أكثر ملاءمة لتسجيل الحركات الدقيقة لليدين والأصابع والأذرع للغة الإشارة بدلاً من إطارات الرسوم المتحركة التقليدية التي أثبتت أنها تستغرق وقتًا طويلاً للغاية ومن المستحيل عملياً إنشاء قاعدة بيانات لغة الإشارة عبرها. على الرغم من النتائج المرئية المرضية التي قد يحققها، فإن نظام التقاط الحركة غالبًا ما يتطلب التحرير والمعالجة قبل استخدامه. وقد استخدم مركز مدى هذه التكنولوجيا في شخصية “بو حمد”، وهو شخصية افتراضية تقوم بتوليد لغة الإشارة القطرية بشكل آلي. وتشكل هذه المهمة جزءًل من مشروع بحث لغة الإشارة “جملة” المدعوم من قبل برنامج مدى للابتكار [2].

فهم عملية المعالجة

يقوم مترجم لغة الإشارة الذي يرتدي بدلة التقاط الحركة بالترجمة بكلمات / جمل بلغة الإشارة يتم تسجيلها بواسطة جهاز كمبيوتر مزود ببرنامج التقاط الحركة. وتنعكس كل حركة يقوم بها مترجم لغة الإشارة على هيكل عظمي افتراضي ليتم حفظها بتنسيق يمكن قراءته من قبل برنامج المعالجة والتحرير. وتشمل عملية المعالجة تحسين البيانات الأولية مثل تقليل الإطارات الرئيسية وتعديل موضع أجزاء الجسم وخاصة اليد والذراع وإزالة الضوضاء.

Cleaning process from Left to right
الشكل 1. عملية المعالجة من اليسار إلى اليمين: مترجم لغة الإشارة باستخدام البزة الخاصة – التقاط الحركة في الوقت الفعلي على البرنامج – البيانات المستوردة في برنامج التحرير – مطابقة الحركة مع الشخصية الافتراضية – الحركة المعالجة عبر الشخصية الافتراضية.

مرحلة معالجة التقاط الحركة

ترتبط بعض المهام الأكثر تكرارًا في في عملية المعالجة بإطارات المفاتيح الصفرية (الحركات المسجلة في الحالة الأولية / حالة الراحة). ويرجع ذلك إلى فقدان الإشارة لفترة وجيزة أثناء جلسة تسجيل الحركة. وعلى الرغم من أن بعض المرشحات المضمنة في برنامج التحرير قد تعمل على إصلاح هذا بشكل آلي، إلا أن هناك حالات قد تحذف فيها هذه المرشحات بعض الحركات المطلوبة. وفي هذه الحالة، يعد إصلاح حركات الإطارات الرئيسية يدويًا هو الحل. كما أن هناك مشكلة أخرى متكررة وهي تحدث عندما يتم تسجيل حركة دوران متحرك بشكل غير صحيح، حيث يتم في معظم الحالات رسم قوس دوران طويل بدلاً من دوران قصير. ويرجع ذلك أساسًا إلى الطريقة التي يتعامل بها برنامج الالتقاط وخوارزميته مع دوران المفصل أثناء محاكاة حركة مفصله الأساسي (على سبيل المثال: مفصل الإصبع الأساسي يحاكي حركة المعصم).

zeroed thumb’s base
الشكل 2. قاعدة الإبهام الصفرية (مفصل المشط)
accelerating movement
الشكل 3. المفصل السلامي يحاكي حركة المعصم المتسارعة

المنهجية والمقاربة المستخدمة

يندرج تحرير التقاط الحركة في إطار الرسوم المتحركة ثلاثية الأبعاد، ولكن بخلاف الرسوم المتحركة ثلاثية الأبعاد التقليدية التي يعرفها الجميع، لا تتبع التقاط الحركة جميع المبادئ الأساسية للرسوم المتحركة التقليدية. وقد تم تطوير هذه المبادئ الأساسية بواسطة رسامي الرسوم المتحركة في ديزني في ثلاثينيات القرن الماضي ولا تزال تتبعها في الوقت الحاضر استوديوهات الرسوم المتحركة ذات الأسماء الكبيرة [3]. إن “الحركة مباشرة إلى الأمام والوقفات المتتالية” هي إحدى تلك المبادئ المشتركة بين تحرير التقاط الحركة والرسوم المتحركة التقليدية مع التركيز على تحرير وضعية “الوقفات المتتالية” [4]. وبالنسبة لمعالجة حركة شخصية “بو حمد”، فقد تم استخدام طريقتين لتحقيق الهدف النهائي:

  • التحرير اليدوي (الوقفات المتتالية): وهو إنشاء سلسلة من الإشارات المرجعية في الجدول الزمني عن طريق تخزين مواضع الشخصية الافتراضية ومعالجة تلك الإشارات المرجعية. وتعمل الإطارات الرئيسية الأصلية من التقاط الحركة على دفع الحركات بين الإشارات المرجعية وفق إجراءات محددة. ويتمتع هذا النهج بميزة تخزين الإشارات المرجعية التي تم معالجتها (الوقفات) للاستخدام المستقبلي عند مواجهة وضع مماثل للشخصية الافتراضية للتعبير عن كلمات أو جمل مختلفة.
  • التحرير الآلي (البرامج النصية والمكونات الإضافية) (Scripts and plugins): هناك قدر لا بأس به من البيانات التي يجب معالجتها مع بعض المهام المتكررة مثل اقتطاع الحركة والقص وتحديد الدورات الأولية للمفاصل. ويجب أتمتة هذه المهام بواسطة البرامج النصية والمكونات الإضافية (Scripts and plugins)؛ حيث أن تطويرها وتحديثها بانتظام وصيانتها تعد أمرًا بالغ الأهمية لتقليل وقت الإنتاج.

الخاتمة

تعد عمليات التحرير والمعالجة من المهام الشاقة والمستهلكة للوقت. وبينما تحقق طرق تحرير الحركة الحالية تغييرات متواضعة في التقاط الحركة، يمكن أن تتطلب عمليات التحرير الأكثر شمولاً والمعالجة المعقدة من الفنان “إعادة محاكاة” أجزاء من الحركة يدويًا لتحقيق أفضل تمثيل مرئي للحركة الأصلية. ومع النهج اليدوي والآلي المقدم في هذه المقالة يمكن تسريع وقت الإنتاج بشكل كبير. وباستخدام هذه الأساليب، تظهر فرص لمزيد من الدراسة في تعزيز عملية المعالجة من خلال المزج بين هذين النهجين وإدخال طرق معالجة جديدة باستخدام الذكاء الاصطناعي للتعرف على وضعية الشخصية الافتراضية والتركيب الآلي للوقفات المتتالية.

شكر وتقدير

نحن نقدر تقديراً عالياً جهود فريق برنامج مدى للابتكار والمساهمين من مجتمع الصم القطري و المركز القطري الثقافي للصم و مجمع التربية السمعية، ونشعر بالامتنان لهم على مساهمتهم الفاعلة. حيث يعود نجاح مهام معالجة التقاط الحركة ومشروع “لغة الإشارة جملة” لدعمهم وتعاونهم.

المراجع

[1]         T. H. Ribeiro and M. L. H. Vieira, “Motion Capture Technology—Benefits and Challenges,” Int J Innov Res Technol Sci Int J Innov Res Technol Sci, vol. 48, no. 1, pp. 2321–1156, 2016.

[2]         D. Al Thani, A. Al Tamimi, A. Othman, A. Habib, A. Lahiri, and S. Ahmed, “Mada Innovation Program: A Go-to-Market ecosystem for Arabic Accessibility Solutions,” in 2019 7th International conference on ICT & Accessibility (ICTA), 2019, pp. 1–3.

[3]         F. Thomas, O. Johnston, and F. Thomas, The illusion of life: Disney animation. Hyperion New York, 1995.

[4]         T. White, Animation from pencils to pixels: Classical techniques for digital animators. Routledge, 2012.

Share this