بقلم عفاف الشلبي
يشير مصطلح التقانات المساعدة Assistive Technology إلى التقانات الذكية - العتادية أو البرمجية - الموجهة لمساعدة ذوي الاحتياجات الخاصة Aid to persons with special needs أو ذوي الإعاقة handicapped persons.
توفر هذه التقانات وسائلَ، أو خدماتٍ، أو حلولًا إبداعيةً تقنية عتادية أو برمجية لتسهيل حياة ذوي الاحتياجات الخاصة. تتناول هذه المقالة أهم تطبيقات التقانات المساعِدة؛ وهي نظم تركيب الكلام Speech Synthesizer Systems الموجَّهة للمكفوفين أو الذين يعانون من صعوبات في النطق.
تنشأ العوائق الصوتية نتيجة للاضطرابات النفسية أو الحركية في جسم الإنسان، ويمكن للآلات في هذه الحالة، أن تكوّن دعمًا لهؤلاء الأشخاص المعوقين، وذلك باستعمال برامج ولوحة مفاتيح مصممة خِصِّيصى لذوي الحاجات الخاصة. تتيح هذه البرامج إمكانَ إنتاجِ كلامٍ مركب بسرعة كبيرة. يستفيد المكفوفون من نظم تركيب الكلام - عند دمجه مع نظم التعرُّف الضوئي Optical Recognition Systems - في تمكينهم من الوصول إلى المعلومات المكتوبة.
التعريف بنظم تركيب الكلام
يسمى التطبيق الحاسوبي المستعمَل لتوليد الكلام المركَّب "مركِّب الكلام" أو "نظام تحويل النصوص المكتوبة إلى كلام Text to Speech System". وهي نظم برمجية تتيح تخاطبًا نصيًّا وصوتيًّا بين الإنسان والحاسوب. تستطيع هذه النظم قراءة أيَّ نص مكتوب -إذ لا قيود على المفردات المراد تركيبها، ولا على حجم هذه المفردات- سواء كتبها الشخص مباشرة أو أُدخلت من أيِّ ملف خارجي. تهتم نظم تركيب الكلام بإنتاج جمل وكلمات جديدة لم يسبق تسجيلها آليًّا.
تقوم مركِّبات الكلام بتحويل أيِّ نص مكتوب إلى الرموز الصوتية الموافقة له (التي تحمل معلومات لغوية عن النص)، ثم تحويل هذه الرموز الصوتية إلى إشارات رقمية تعبِّر عن إشارة الكلام المركبة.
يهتم الباحثون في مجال مركِّبات الكلام بتقديم نظم حاسوبية لتركيب الكلام أو تقديم تطبيقات على الهواتف الذكية تساعد ذوي الاحتياجات الخاصة ومن لديهم صعوبات في النطق في أعمالهم اليومية؛ كنظم الإجابة الآلية، وقراءة المقالات والصحف اليومية، وتصفُّح البرمجيات، وتعرُّف العملات ونطق أسمائها، وتعلُّم اللغات، وسوق الألعاب الناطقة لمساعدة أطفال التوحد، وغيرها من التطبيقات ذات الأهمية العالية لهؤلاء الأشخاص.
جرى تطوير نظم لتركيب الكلام للغة الإنجليزية واللغة الفرنسية تقدم كلامًا مركبًا يحاكي الكلام الطبيعي البشري من حيث الجودة والطبيعية. في حين لا تزال الأبحاث مستمرة لتقديم مركبات كلام للغة العربية بجودة عالية، إذ إن معظم مركبات الكلام العربية ذات الجودة العالية مغلقة المصدر ومسوقة تجاريًّا بأسعار باهظة.
الهيكلية العامة لنظم تركيب الكلام
تشترك معظم مركِّبات الكلام بالهيكلية العامة للمركب، وهي تتكون من جزأين أساسيين: (1) مكون معالجة اللغات الطبيعية Natural Language Processing Module (NLP)، (2) مكون معالجة الإشارة الرقمية Digital Signal Processing Module (DSP). يُظهر الشكل (1) مخططًا عامًّا لنظم تركيب الكلام.
يهتم الجزء الأول بمعالجة اللغة المكتوبة، يمكن أن نطلق عليها "المعالجة العالية المستوى". تحوِّل هذه المعالجة التمثيلَ الكتابي (الإملائي) للنص إلى تمثيل صوتي يترافق مع تمثيل تنغيمي للنص المدخل بشكل نبرة صوتية. تتطلب هذه المعالجة توفُّر معارفَ خاصة تتعلق باللغة المدروسة.
أما الجزء الثاني من هيكلية مركب الكلام، فيختص بما نطلق عليه "المعالجة المنخفضة المستوى". تولِّد هذه المعالجةُ الإشاراتِ الصوتيةَ باستعمال إحدى تقنيات معالجة الإشارة التي لا علاقة لها باللغة المدروسة.
الشكل 1: مخطط عام لنظم تركيب الكلام
-
مكون معالجة اللغة الطبيعية: يُعنى بمعالجة اللغة الطبيعية البشرية المكتوبة وتحليلها. ولما كان دَخْلُ نظم تركيب الكلام نصًّا مكتوبًا باللغة الطبيعية، فينبغي أن تعالج هذا النص المدخل على عدة مستويات، يمكن تلخيصها كما يلي:
- مكون المعالجة المسبقة للنص Text Pre-processing الذي يتضمن عددًا من الوحدات نذكر منها: (1) وحدة استنظام النص Text Normalization: تتمثل المهمة الأساسية لهذه الوحدة في تهيئة النص المدخل للقراءة، ومعالجة الكلمات غير القياسية Non-Standard Words (مثل الاختصارات، والتواريخ، وأرقام الهواتف، والبريد الإلكتروني)، (2) وحدة التقطيع إلى جمل Sentence Segmentation بالاستفادة من علامات الترقيم، (3) وحدة التقطيع إلى كلمات Tokenization.
- مكون تحويل التمثيل الإملائي للجمل والكلمات المراد نطقها إلى مقابلها الصوتي، إضافة إلى القيام بمهام أساسية لتزويد النص المدخل بمعلومات لغوية تفيد في تحسين جودة الكلام المركب.
- مكون توليد التنغيم Prosody Generation: يُستعمل التنغيم في إشارة الكلام لوصف حزمة معقدة من المعلومات التي تصف على سبيل المثال: جنس المتحدث، ومزاجه، ونوع العاطفة، وأماكن الوقف، والتشديد أو النبر، وغيرها. يشار إلى هذه المعلومات بالسمات العروضية التنغيمية. لذلك يُعد حساب مُوسِطات التنغيم prosodic parameters الملائمة لنص معيَّن عنصرًا أساسيًّا في نظم تركيب الكلام. تتمثل مهمة هذا المكون في تحويل سلسلة التمثيل المعتمِدة على النص إلى سلسلة من الموسطات التي تمثل قيمة كلٍّ من: التردد الأساسي، والمدة، والشِّدة، إضافة إلى تحديد موسط مهم يُشار إليه بنوع التصويت phonation type. يُشير هذا الموسِط إلى تغيرات محددة في شكل وحركة وسماكة الحبال الصوتية vocal folds من شأنها أن تساعد على تغيير التعابير في العبارة المنطوقة. تساعد هذه الموسطات على تغيير الخصائص الأساسية لإشارة الكلام بهدف تحسين جودة وطبيعية الكلام المركب.
- مكون معالجة الإشارة الرقمية: تتمثل مهمة هذا المكون في تحويل سلسلة الصوتيمات المقابلة للنص المدخل - بالاستفادة من المعلومات اللغوية المزوَّدة من مكون NLP، ومن موسطات التنغيم المناسبة على مستوى الكلمات والعبارات والجمل - إلى كلام مركب أقرب ما يكون إلى الكلام البشري الطبيعي باستعمال إحدى تقنيات التركيب المعروفة.
التقنيات الحديثة في مركبات الكلام
لما كان إنتاج الكلام عند الإنسان عمليةً غايةً في التعقيد، فقد جرى العمل على عدد من النماذج لمحاكاة هذه العملية. واستُعملت لهذا الغرض طرائقُ ميكانيكية، ثم كهربائية، وأخيرًا حاسوبية رقمية، وذلك اعتمادًا على فهم آلية إنتاج الكلام عند الإنسان. فظهرت نتيجةً لذلك مركباتُ كلام متعددة.
يُعدُّ مركب الكلام بالسَّلسلة أو بالضمّ Concatenative synthesis من أكثر الطرائق شيوعًا في توليد الكلام المركب. حيث تُستعمل عينات كلام مسجَّلة سلفًا ومختلفة الأطوال، مشتقة من كلام بشري طبيعي.
وليس لدى هذه المركبات سوى معرفة قليلة عن المعطيات الصوتية التي تعالجها؛ فهي تعتمد على وحدات صوتية سبق تسجيلها، يقوم النظام بتوظيفها لإنتاج كلام متسلسل. لذلك فإن هذه المركبات تحتاج إلى إعداد قاعدة معطيات صوتية أو كلامية speech database (تسمَّى القاموس الصوتي)، ويجب -قبل البدء في بناء هذه المركبات- اختيار الوحدات الصوتية المناسبة، بحيث تقلِّل من مشاكل الضم لاحقًا، وتضمن تركيبَ مختلف الكلمات تركيبًا صحيحًا.
بعد ذلك، تُسجَّل هذه الوحدات الصوتية إلكترونيًّا ضمن سياقات محددة، وذلك لضمان نطق الأصوات ضمنها نطقًا صحيحًا، وتخزَّن حاسوبيًّا. ثم يجري اقتطاع هذه الوحدات من السياقات إما يدويًّا باستعمال أدوات برمجية خاصة بعرض الإشارات وتحليلها وتحريرها، وإما آليًّا باستعمال خوارزميات تقطيع الكلام.
يمكن أن تتضمن قاعدة المعطيات الكلامية أسماء الوحدات الصوتية الخام والملف الصوتي waveform الموافق لها مسجَّلًا بصوتٍ بشري، وكل ما يفعله مركب الكلام - بعد معرفة الوحدات الصوتية اللازمة - هو البحث عن هذه الوحدات وضم الإشارات الموجية الموافقة لها.
من مزايا هذه الطريقة أن الصوت الناتج عنها طبيعي، ولكنها - بالمقابل - تحتاج إلى مساحات تخزين كبيرة جدًّا (بحسب نوع الوحدات الصوتية المستعملة)، ومن ثَم فإن زمن النفاذ فيها طويل نسبيًّا، إضافة إلى أنه لا يمكن التحكم بالسمات العروضية التنغيمية للكلام المركب.
يمكن أيضًا تحليل الإشارات الموجية للوحدات الصوتية باستعمال إحدى تقنيات نمذجة الإشارة الكلامية، واستنتاج موسطات خاصة بها، ثم تخزين هذه الموسطات في قاعدة المعطيات الكلامية، التي تسمى عندها "قاعدة كلامية بموسطات" parametric speech database. تُستعمل هذه الموسطات لاحقًا لتركيب الكلام مضافًا إليه التنغيم المناسب. نحصل في هذه الحالة على ميزتين هامتين؛ هما:
- تخفيض حجم قاعدة المعطيات الصوتية (وهي مسألة مهمة في مركبات الكلام بالضم).
- القدرة على تعديل هذه الموسطات لتضمين التنغيم المناسب الذي يتمثل بالتردد الأساسي، والمدة، والمطال.
أشهر التطبيقات التي تَستعمل نظم تركيب الكلام لمساعدة ذوي الحاجات الخاصة
تُعدُّ الكتب الصوتية الناطقة من أهم التطبيقات الذكية التي تَستعمل نظم تركيب الكلام لخدمة المكفوفين وضعاف البصر. ويتوفر اليوم الكثير من نظم التشغيل التي تعمل كمساعد شخصي يعتمد في تركيبه للكلام على تقنيات الذكاء الصنعي؛ وأهمها: تركيب الكلام، وتعرُّف الكلام، وتعلم الآلة.
من هذه التطبيقات:
- نظام التشغيل كورتانا Cortana.
يطلق على هذا النظام مصطلح النظام الشخصي المساعد، وذلك لما يحويه من كمٍّ هائل من التطبيقات الصوتية والكتابية الذكية المساعدة لضعاف البصر والمكفوفين؛ إذ يتضمن نظامًا لتركيب الكلام، وآخر لتعرُّف الكلام. وقد طوَّرته شركة مايكروسوفت، إلا أنه لا يدعم اللغة العربية. من أهم التطبيقات التي يقدمها نظام التشغيل كورتانا لجعل المعوق أكثر تفاعلًا مع واقعه:
- إجراء الاتصالات وإرسال الرسائل الصوتية: باستطاعة نظام التشغيل كورتانا المساعدة على إجراء المكالمات وإرسال الرسائل النصية والصوتية.
- التذكير: بإمكان النظام الصوتي المضمَّن بكورتانا تذكير الشخص بمواعيده والتواصل مع الآخرين عن طريق إتاحة إجراء مكالمة صوتية معه.
- مذكرة النظام الصوتي: فهي تتابع جميع الأمور التي يسأل عنها الشخص؛ كالاهتمامات، والأماكن المفضلة، والأغاني التي بحث عنها.
- تحدَّث من كورتانا: يتضمن النظام الصوتي من كورتانا خدمة محادثة الشخص. وتتسم هذه المحادثة بالذكاء؛ إذ يمكنها الإتيان بالنكات والغناء والمشاركة في الآراء.
- نظام التشغيل أليكسا Alexa
يتوفر هذا النظام بعشر لغات مختلفة، ليست العربية إحداها. وهو يتفاعل صوتيًّا مع المستعمِل.
من الخدمات التي يقدمها هذا النظام:
- تشغيل الموسيقا.
- إعداد قوائم المهام.
- إعداد الإنذارات.
- بث وتشغيل مقاطع صوتية.
- تشغيل الكتب المسموعة.
- الاستعلام عن الطقس وغيرها من التطبيقات الحية التي تجعل ضعيف البصر على تواصل مع بيئته الخارجية.
- جهاز Finger Reader
صُنع هذا الجهاز على شكل خاتم يوضع حول الإصبع، ويمكنه أن يقرأ كلَّ ما يقع عليه من نصوص مطبوعة بصوت واضح ومسموع. يُمكّن هذا الجهاز ضعاف البصر أو العميان من القراءة دون الاعتماد على طريقة برايل؛ إذ يُكتفى بتمرير أصابعهم على ما يودون قراءته فيقوم الخاتم بمسح الكتابة ضوئيًّا بفضل كاميرا مدمجة فيه، ثم يقرؤها بصوت واضح ومسموع.
يستطيع الجهاز قراءة كل كلمة موجودة على الورقة بتمريره من اليسار إلى اليمين على كل سطر ببطء. ويستطيع أيضًا أن يخبر صاحبه عن بداية السطر ونهايته أو عند الخروج عن النص بالاهتزاز، وذلك لضمان قراءة سليمة ومعنى مفهوم. ولكن هذا الجهاز يحتاج إلى الأناة أثناء استعماله، إذ يجب المرور على كل كلمة ببطء حتى يتمكن الجهاز من قراءتها.
هذا وإن كون الصوت يركَّب آليًّا في هذا الجهاز، لا يقلِّل أبدًا من أهميته في مساعدة المكفوفين وضعاف البصر.
- تطبيق Aipoly Vision
تطبيقٌ عملي ومميز يساعد المكفوفين على تعرُّف ما يحيط بهم بطريقة سهلة وبالزمن الحقيقي بمجرد تمرير الهاتف الذكي أمام أيِّ شيء يريدون تعرُّفه أو معرفة ماهيته، أو أمام أيِّ جسم قد يعترض طريقهم.
عند تشغيل البرنامج Aipoly تبدأ كاميرا الجوال بالعمل، فإذا مُرِّر الجهاز أمام أي غرض يقوم البرنامج بكتابة اسم الغرض ونطق هذا الاسم. والأهم من ذلك، أن التطبيق يقدم خدماته بسبع لغات حية من بينها العربية. وهو تطبيق مثالي للأطفال الذين هم في طور التعلم؛ إذ يعلِّمهم أسماء الأغراض التي يرونها أمامهم بطريقة مرحة ومسلية. إضافة إلى دوره المهم في مساعدة المصابين بمرض عمى الألوان، وذلك بنطقه اسم اللون الذي يظهر أمام الكاميرا.
- تطبيق Be My Eyes
أطلق فريق من الدنماركيين تطبيقًا جديدًا للمكفوفين يساعدهم على حل المشكلات التي تواجههم في حياتهم اليومية. فبعد تنصيب التطبيق يمكنك التسجيل فيه على أنك متطوع أو ضعيف بصر. تعتمد فكرة التطبيق على مكالمات الفيديو؛ إذ يمكن لضعيف البصر عند حاجته إلى المساعدة أن يسأل أي شخص من المتطوعين الموجودين على الشبكة. من الميزات التي يقدمها هذا التطبيق أيضًا قراءة البريد الإلكتروني للمكفوفين، ومن ميزاته أيضًا أنه يدعم اللغة العربية.
- تطبيق Tap Tap See
هو تطبيق كاميرا لمساعدة ضعاف البصر والمكفوفين، يَستعمل كاميرا الهاتف الذكي لالتقاط صورة أو تسجيل فيديو، وتعرُّف الأغراض بصوت عال وواضح.
تطبيقات تساعد الأطفال من ذوي الحاجات الخاصة
- تطبيق Learn Braille Alphabet
هذا التطبيق من أكثر التطبيقات فائدة وشهرة للأطفال والكبار الذين فقدوا أبصارهم ولا يستطيعون القراءة، فهو يقدم لغة برايل بطريقة سهلة وممتعة تجعل تعلُّمها سهلًا على الطفل، ويمكِّنه من التدرُّب على لغة برايل بالصوت والحركة، وتشكيل الكلمات والجمل.
- تطبيق Gabby Speech Lab
يساعد هذا التطبيق الأطفال الذين يعانون من مشاكل في النطق والكلام على التعبير عن احتياجاتهم بطريقة سهلة وممتعة ويحفزهم على الكلام واستعمال اللغة للتواصل مع المحيطين بهم.
الخاتمة:
تحاول شركات التقانات العملاقة توفير المناخ المناسب لذوي الاحتياجات الخاصة من المكفوفين وضعاف البصر ليعتمدوا على أنفسهم دون الحاجة إلى مساعدة الآخرين، وتسعى إلى دمجهم في الواقع بالاستعانة ببرمجيات صوتية وبصرية تسهِّل حياتهم وتجعلهم أكثر تفاعلًا مع مجتمعهم.
المراجع:
A.Al Shalaby O. Al Dakkak, N. Ghneim "An Arabic Text To Speech Based on Semi-Syllable Concatenation," [Article] // International Review on Computers and Software (IRECOS). - 2016. - vol. 11, no. 12.
A.Al Shalaby O. Al Dakkak, N. Ghneim Acoustic Word Stress Analysis for Continuous Arabic Speech [Article] // International Journal on Computer and Communications Networks, Computational Intelligence and Data Analytics. - 2017. - Vol 1, No 1.
Matthew B Hoy. 2018. Alexa, siri, cortana, and more: An introduction to voice assistants. Medical reference services quarterly, 37(1):81–88.
https://sec.ch9.ms/slides/winHEC/2_03_Cortana_Speech_Platform.pdf
https://doi.org/10.1080/02763869.2018.1404391