Syrian Computer Society

ملف العدد

تعرف العواطف من معطيات الصوت والصورة

العدد 156 | كانون اﻷول (ديسمبر)-2020

1. المقدمة

إنّ مسألة تعرُّف العواطف Emotion Recognition هي تمييز الآلة لبعض المشاعر الإنسانية وتصنيفها إلى عدد من الصفوف، وتهدف إلى تصنيف الحالة النفسية للشخص في لحظاتها الأخيرة فقط (أو الدقائق الأخيرة) وليس كشف شخصية الإنسان Personality؛ فالشخصية حالة شبه دائمة للمزاج، أما هدف المسألة فهو معرفة الوضع الحالي لمزاج الشخص.

2. توصيف المسألة

يُعَدُّ التصنيف Classification من أشهر المسائل في مجال الذكاء الصنعي، فهو يُوزَّع العيِّنات إلى صفوف Classes معروفة سلفًا. ويندرج تعرُّف العواطف تحت هذا النوع من المسائل؛ فهو يُصنِّف حالةَ الشخص إلى أحد المشاعر الأساسية: الفرح، الحزن، الغضب، الكره، الدهشة، الخوف.

تُحَلُّ مسائل التصنيف بمجموعة خطوات: تبدأ بتحصيل المعطيات (النص، الصوت، الفيديو، إلخ...)، وتُجهَّز منها قاعدة معطيات للتدريب، ثم يُبنى نموذج معيَّن يُسمى المصنِّف Classifier الذي يُدرَّب باستعمال قاعدة المعطيات السابقة.

تختلف المعطيات التي تُستعمل لتدريب المصنِّف فقد تكون:

- قياسات لحساسات فيزيولوجية؛ مثل: الناقلية الكهربائية للجلد skin conductance، حيث توضع حساسات في نقاط معيَّنة على الجلد وتُقاس المقاومة بينها. وقد لوحظ تغير تلك المقاومة تبعًا للحالة النفسية. وقد تكون تلك القياسات: تقلصات العضلات، أو سرعة دقات القلب، أو درجة حرارة الجسم، أو سرعة تدفق الهواء أثناء التنفس وغيرها من المؤشرات الفيزيولوجية على مزاج الإنسان.

- تعابير الوجه؛ حيث تُقاس أبعاد معيَّنة في الوجه، كالبعد بين الحاجبين، ومحيط الدائرة حول الفم، ومساحة الفم المفتوح وغيرها من القياسات التي تتأثر بحالة الشخص النفسية.

- سمات صوتية؛ حيث تُحلَّل الإشارة الكلامية، وتُستخرَج منها سمات معيَّنة تشير إلى مشاعر المتكلم.

- مقاطع فيديو؛ تجمع بين معطيات الصوت والصورة معًا، وتحتاج هذه المعطيات إلى زمن معالجة أكبر وتعقيد حسابي أكبر بكثير من الحالات السابقة، ولكنها تعطي نتائج أكثر دقة.

- نص كتابي text؛ ففي بعض الحالات يمكن الحصول على معلومة عن شعور الإنسان من خلال تردُّد استعمال بعض الكلمات أو الارتباطات فيما بينها.

- قياسات من أدوات الإدخال في الحاسوب؛ مثل الفأرة ولوحة المفاتيح، حيث تُراقَب ضربات الشخص على لوحة المفاتيح والفأرة وسرعة حركة الفأرة وسرعة الكتابة باستعمال برمجيات معيَّنة وتُحسب منها معاملات زمنية أو ترددية.

تندرج مسائل التصنيف في الذكاء الصنعي تحت فرع "طرائق التعلُّم مع مُعلِّم Supervised Learning"، أي يجب أن يوجد هدف Target أو أكثر يتدرب عليه المصنِّف. وبمعنى آخر ينبغي أن يتوفر لكلِّ عيِّنةِ دخلٍ قيمةُ خرجٍ يتعلَّم المصنِّف تنبُّؤها. يتم ذلك في حالة تعرُّف العواطف بعنونة المعطيات Data Labeling، أي تُربَط كل عيِّنة من الدخل بشعور معيَّن.

ويختلف عدد المشاعر حسب النموذج المصمَّم model، فيصنِّف النموذجُ PAD المشاعرَ إلى ثلاثة مشاعر، على حين يصنِّف النموذجُ Ekman إلى ستة [1] تسمَّى المشاعر الأساسية (الفرح، الحزن، الغضب، الخوف، الكره، الدهشة).

3. تطبيقات تعرُّف العواطف

تفيد مسألة تعرُّف العواطف في العديد من التطبيقات؛ منها: [1]

1.3. في هندسة البرمجيات software engineering

تقوم معظم شركات البرمجة بتقييم منتجاتها البرمجية اعتمادًا على رأي الزبائن، ويُعتبر رضا الزبون هو نقطة التوقف في تطوير المنتج. يحصُل ذلك عادة بإرسال تقييم feedback من الزبون إلى الشركة، ويحدث في بعض الأحيان ألا يرسل الزبون أيَّ تقييم، فيؤدي ذلك إلى نقص المعلومات اللازمة لاتخاذ القرار المتعلق بجودة المنتج. أحد تطبيقات تعرُّف العواطف في هذا المجال: اختبار الانطباع الأول First Impression Test، حيث يتم تعرُّف شعور الشخص في أول 5 ثوانٍ من تشغيل البرنامج أو فتح صفحة الوب (إذا كان المنتَج موقعًا إلكترونيًّا). وهذا الانطباع قد يشجِّع الشخص على شراء المنتج أو العكس. في اختبار الانطباع الأول يكفي تصنيف المشاعر بين الاهتمام excitement والاشمئزاز disgust.

2.3. التعلم الإلكتروني E-Education

يُستعمَل تعرُّف العواطف في التعلم الإلكتروني لغرضَيْن:

- الأول: معرفة الحالة النفسية للطلاب قبل البدء بالتعلُّم؛ أي: هل هي مناسبة لعملية التعلم أم لا؟

- الثاني: معرفة الحالة النفسية التي تنشأ عند تنفيذ بعض المهام التعليمية؛ أي إنشاء حالة مزاجية معيَّنة مرافقة لكل مهمة تعليمية. وهذ يساعد على تطوير النظام التعليمي لتحقيق أكبر فائدة ممكنة.

3.3. اللعب على الشابكة Online gaming

إن هدف الألعاب بوجه عام لفت انتباه اللاعب وإحساسه بالإثارة، لذلك فمراقبة مشاعر اللاعب أمر ضروري لتقييم أسلوب اللعب وتحسينه. فعندما يلعب الشخص مدة طويلة، قد يكتسب مهارة في اللعب مما قد يشعره بالملل بسبب نقص التحدِّي في اللعب، فمراقبة الشعور بالملل يفيد في تغيير طريقة اللعب ومستواه لكسر الملل عند اللاعب. من ناحية أخرى، يفيد تعرُّف مشاعر اللاعب في حمايته من بعض المشاكل الصحية، فمن المعروف أن اللاعب قد يستمر في التركيز مدة طويلة مما قد يسبب له أمراضًا عصبية، فيمكن عندها تعديل أسلوب اللعب لإراحة حواسه وخفض انتباهه مدة معيَّنة ثم المتابعة بعد ذلك.

4.3. نظم العناية الصحية الذكية intelligent healthcare system

تسمَّى أيضًا نظم العناية الصحية المعتمِدة على العواطف emotion-based healthcare systems. من المعروف أن المشاعر السلبية كالغضب والحزن والقلق تؤثر سلبًا في الصحة، فتقوم هذه النظم بالتنبؤ بعواطف الإنسان اعتمادًا على تعابير الوجه والصوت وتقديم خدمات معيَّنة للتقليل من المشاعر السلبية وزيادة المشاعر الإيجابية.

5.3. تطبيقات الروبوت Robotics

مع تقدم الذكاء الصنعي انتشرت الربوتوتات في كثير من مجالات الحياة، فأصبحت الحاجة ملحَّة لنظمِ تخاطبٍ بين الإنسان والآلة Human Computer Interface (HCI) يستعملها الروبوت لتلبية احتياجات الإنسان، فعندما يتعرَّف الروبوت مشاعرَ الإنسان يسهل عليه تقديم الخدمات المطلوبة مما يؤدي إلى إغناء وإثراء التفاعل بينهما.

تعطي الطرائق التي تَستعمل الصورة دخلًا في نظم تعرُّف العواطف نتائجَ أفضل من الطرائق التي تَستعمل صوت المتكلم؛ والسبب هو أن الإشارةَ الكلامية إشارةٌ ديناميكية وغير مستقرة، أما الصورة فهي إشارة ثابتة static، فالكاميرا تحصِّل على صور ذات أبعاد ثابتة، وأما الإشارة الكلامية فإنها تتغير لنفس الشخص ولنفس الكلام؛ أي إذا كرَّر الشخصُ نفسُه نُطْقَ كلمةٍ معيَّنة عددًا من المرات فإنها تكون مختلفة في كل مرة: في الزمن والمطال والتردد. لذا فإن الطرائق التي تَستفيد من الصوت والصورة معًا (الفيديو) تُعدُّ أكثر دقة في تعرُّف العواطف. ولذلك سنشرح هذا النوع من النظم.

4. مثال على نظام تعرُّف العواطف Emotion Recognition System

يعتمد هذا النظام بوجه أساسي على التعلُّم العميق Deep Learning؛ فهو يتألف من شبكتين عَصَبونِيَّتَين من نوع Convolutional Neural Network (CNN) إحداهما للصوت والأخرى للصورة؛ أي إن دَخْلَ النظام هو إشارة فيديو. وظيفة تلك الشبكتين استخراج السمات من الكلام والصورة. ولما كانت السمات مستخرجة من شبكتين مختلفتين، فمن الطبيعي أن تكون غير متجانسة، لذلك يجب دمجها (إعادة تعريفها representation) لتصبح متجانسة في فضاء واحد. يُدمَج خَرْجُ الشبكات بعدة طرائق؛ منها: القيمة العظمى max، والجداء product، وقاعدة جَمْعِ بايز Bayes sum rule، وأخيرًا طريقة الشبكات السريعة Extreme Learning Machine (ELM). استُعملت الطريقة الأخيرة ELM نظرًا لتفوقها على الطرائق الأخرى في الكثير من الكتابات العالمية. بعد ذلك تُصنَّف السمات باستعمال خوارزمية Support Vector Machine (SVM) إلى إحدى المشاعر الأساسية. يبين الشكل (1) المخطط العام لنظام تعرُّف العواطف من الصوت والصورة. [2]

الشكل 1: المخطط العام لنظام تعرُّف العواطف

نشرح فيما يلي مفهوم التعلُّم العميق، لأن نظام تعرُّف العواطف يعتمد عليه اعتمادًا كليًّا، ثم نُتْبَعُ ذلك بعرض أنواع الشبكات العَصَبونِيَّة التي استُعملت في بناء نموذج التعرُّف.

1.4. التعلُّم العميق [3]

التعلم العميق منهجٌ للذكاء الصنعي، ويُطبَّق باستعمال شبكات عَصَبونية عميقة؛ أيْ شبكات تتألف من طبقات مخفيَّة hidden layers كثيرة. وكلما زاد عدد الطبقات المخفيَّة في الشبكة العَصَبونية كانت أشدَّ عمقًا، وأكثر دقةً وقدرة على حلِّ مسائلَ شديدة التعقيد، ومن ثَم أكثر حاجة إلى حواسيب أقوى ومعطيات تدريب أضخم. لا يُعتبر العَصَبون ذكيًّا وحده، ولكن عمل عدد كبير جدًّا من العَصَبونات بعضها مع بعض يولِّد سلوكًا ذكيًّا. وقد لوحظ ذلك في العقود الثلاثة الماضية، حيث ازداد حجم الشبكات العَصَبونية المستعمَلة ازديادًا أسِّيًّا، فزاد ذلك من دقة عملها ومن القدرة على حلِّ المسائل الشديدة التعقيد.

كان الهدف من التعلُّم العميق في بدايته إنشاءَ نموذج رياضي يكافئ عمل الدماغ، ولكن هذا الأمر غايةٌ في الصعوبة، لأن بناء هذا النموذج يتطلب معرفة دقيقة بطريقة عمل الدماغ. ولمعرفة الخُوارزميات التي يستعملها الدماغ يجب مراقبة نشاط آلاف - وربما ملايين - الخلايا العصبية المرتبطة بعضها ببعض في وقت واحد.

ولم يتمكن الباحثون حتى الآن من فهم أبسط العمليات التي يقوم بها الدماغ، لذلك أصبحت خوارزميات التعلم التي تُستعمل في التعلم العميق توظِّف الدماغ على أنه مصدر إلهام لها فقط، مع العلم أنَّ الدماغ هو الدليل على أنَّ تدريب الآلة يولِّد سلوكًا ذكيًّا. وتابع مجموعة من الباحثين في فهم كيفية عمل الدماغ بغية نمذجته رياضيًّا، وسُمي هذا المسعى باسم "علم الأعصاب الحسابي" Computational neuroscience. وهذا العلم منفصل تمامًا عن التعلم العميق لأنه يَعتبر أن محاكاة الدماغ هي الطريقة المثلى لبناء نماذج الذكاء الصنعي، على حين أن التعلم العميق يهتم في المقام الأول بكيفية إنشاء نظم ذكية، مستوحاة في بعض الأحيان من عمل الدماغ، وقادرة على حل مهام معيَّنة بنجاح.

2.4. الشبكات العَصَبونية التلفيفية Convolutional Neural Network (CNN)

يرد مصطلح (الشبكات العَصَبونية التلفيفية) كثيرًا في عالم الذكاء الصنعي، وخصوصًا في معالجة الصورة. وقد جاءت تسمية "تلفيفية" من جداء التلافّ Convolutional product الذي يُستعمل في معالجة الإشارة؛ فلكلِّ نظامِ اتصالاتٍ استجابةٌ نبضية توصِّفه، ويكون الخرج هو جداء التلافّ بين الدخل وتلك الاستجابة. يحصُل جداء التلافّ بعملية مسح للاستجابة النبضية على إشارة الدخل وضرب إحداهما في الأخرى نقطة بنقطة ثم جمع النتائج. إن ما يحصُل في الشبكات العَصَبونية التلفيفية مشابه لذلك، حيث يجري مسح مصفوفة الدخل بمرشحات ذات أبعاد معيَّنة، ثم تقليص أبعاد المصفوفة الناتجة بعملية Pooling، حيث يُحسَب الوسطي average أو القيمة العظمى Max لخرج المرشح واستبدالها بالمرشح كله. تتميز شبكات CNN بأنها تركِّز على تفاصيل معيَّنة في الصورة وذلك باستعمال مرشحات معيَّنة، وتعيد مسح الصورة باستعمال مرشحات مختلفة للتركيز على تفاصيل مختلفة، مما يعطيها القدرة على استخراج سمات فعَّالة ومتنوعة. يجري تمثيل الصورة الملونة غالبًا بثلاث مصفوفات (Red, Green, Blue)؛ لذلك تُمسَح الصور الثلاث بالمرشحات فتتكون شبكة تلفيفية ثلاثية الأبعاد 3D CNN، وإذا كان الدخل مصفوفة ثنائية مثل طيف إشارة كلامية تتكون شبكة ثنائية البعد 2D CNN.

3.4. شبكات التعلُّم السريع Extreme Learning Machine (ELM)

لما كان نظام التعرُّف يحوي دخلين مختلفين (صوت وصورة) وكان كل دخل يُعالَج وحده بشبكة مستقلة، فلا بدَّ للاستفادة من كلا الدخلين معًا من استعمال شبكة عَصَبونية لدمج خرج الشبكة العَصَبونية التي أُدخل الصوت عليها وخرج الشبكة العَصَبونية التي أُدخلت الصورة عليها. لذلك استُعملت شبكتان متعاقبتان من نوع ELM، والهدف من ذلك تدريب الأولى على دمج خرج شبكتَي الصوت والصورة والتنبؤ بجنوسة gender الشخص المطلوب تحديد مشاعره، وتدريب الثانية للتنبؤ بالعواطف بعد التنبؤ بالجنوسة؛ فقد أثبتت الدراسات أن تعرُّف العواطف المعتمد على الجنوسة gender-based emotion recognition أدق بكثير من ذلك المستقل عنه [4].

4.4. الفصل بآلة أشعة الدعم Support Vector Machine

تحظى هذه الخُوارزمية بشعبية كبيرة لحل مسائل التصنيف Classification وتعطي نتائج دقيقة نسبيًّا؛ فهي تعمل على تعظيم maximization منطقة الفصل (وتسمى أحيانًا الهامش أو منطقة القرار) بين عيِّنات الصفوف، وتُحدِّد العينات التي تلامس منطقة الهامش والتي تسمى أشعة الدعم (الحدود) support vectors. يُظهر الشكل 2 منطقة الفصل وأشعة الحدود.

الشكل 2: خوارزمية SVM

يمكن تقسيم خطوات تصميم نموذج تعرُّف العواطف إلى ما يلي:

1- فصل الصوت عن الفيديو وإجراء معالجة أولية لكل دخل، فتُحسَب معاملات Mel-spectrum للإشارة الكلامية المستخرجة من الفيديو، وتُحوَّل أُطر الفيديو إلى أُطر رمادية مقيَّسة.

2- إدخال معاملات Mel-spectrum لشبكة عَصَبونية 2D-CNN وإدخال أُطر الفيديو الرمادية المقيَّسَة لشبكة عَصَبونية أخرى 3D-CNN مستقلة عن الأولى.

3- دَمْجُ خَرْجِ الشبكتين باستعمال شبكتين متتابعتين من نوع (ELM).

4- إجراء عملية التصنيف باستعمال خوارزمية (SVM).

قبل إدخال المعطيات إلى الشبكات العَصَبونية يجب معالجتها. وسنذكر لاحقًا طريقة معالجة الإشارة الكلامية وأُطر الفيديو.

5.4. معالجة الإشارة الكلامية

الإشارةُ الكلامية إشارةٌ ديناميكية غير مستقرة وتَنتج بسبب ضغط الهواء الخارج من الرئتين إلى القصبة الهوائية ثم إلى الحَنْجَرة التي تحوي الحبال الصوتية باتجاه الأنبوب الصوتي. يتغير شكل الأنبوب الصوتي تبعًا للأصوات التي يُنتجها، ويمكن اعتباره ثابتًا خلال مدة قصير من رتبة 20ms، يظهر تأثير هذا الأنبوب على الكلام كمرشح؛ إذ إنه يمرِّر مجموعة ترددات -هي ترددات الطنين- تظهر في طيف الإشارة الكلامية الموافقة لنافذة زمنية معيَّنة كقمم تسمى البواني Formants.

لوحظ أن معامِلات Mel-spectrum بالمقياس اللغارتمي هي أفضل السمات التي تفيد في تدريب الشبكات العَصَبونية [5]، وتُستخرج من الإشارة الكلامية كما في الشكل 3. تُستنبط المعامِلات بطريقة تحاكي عمل الأذن البشرية حيث تُعرَّف مجموعة مرشحات حزمة (تسمى مرشحات Mel) تكون المسافة بينها خطية تقريبًا حتى التردد 1KHz وتصبح لغارتمية للترددات العليا.

الشكل 3: مراحل معالجة الإشارة الكلامية

إن Mel هي وحدة قياس تحاكي إدراك الأذن للترددات، وتُحوَّل الترددات إلى مقياس Mel باستعمال المعادلتين:

حيث f هو التردد، و m هو التردد بمقياس Mel.

تُستنبط معامِلات Mel-spectrum كما يلي:

1- تقسيم الإشارة الكلامية إلى نوافذ متتالية 40ms.

2- ضرب النوافذ السابقة في نافذة هامينغ Hamming window من نفس الطول للتخفيف من أثر الحافات.

3- تُؤخذ النوافذ بتراكب 50% للتعويض عن خفض مطالات الحافات.

4- حساب تحويل فورييه لكل نافذة.

5- ترشيح الطيف الناتج بمجموعة مرشحات Mel.

6- حساب طاقة الإشارة على خرج كل مرشح بالمقياس اللغارتمي.

6.4. معالجة أُطر الفيديو

يجري أولًا البحث عن الوجه ضمن كل إطار باستعمال إحدى خوارزميات كشف الوجه مثل Viola-Jones algorithm [6]، مع إهمال الإطار الخالي من الوجه، ثم يُقسَّم الفيديو إلى أجزاء segments بطول 2.02ms، ويُختار 16 إطارًا مفتاحيًّا key frame في كل جزء، ويُعرَّف الإطار المفتاحي بأنه الإطار الأقل تغيرًا ضمن سلسلة ما. الغرض من الإطار المفتاحي حذف الضجيج، لأن الضجيج عشوائي يتغير من إطار لآخر، فالإطار الأقل تغيرًا هو الأقل تأثرًا بالضجيج، ويُعْرَف هذا الإطار كما يلي:

· تُؤخذ نافذة تحوي 7 أُطر (اختير الرقم 7 للتجريب).

· يُرسم مخطط التكرارات histogram لكل إطار (أي مخطط لبكسلات Pixels الإطار).

· يُحسب الفرق بين كل مخطط تكرارات والذي يليه (باستثناء الأخير).

· يُختار الإطار الأقل تغيرًا على أنه إطار مفتاحي.

· تُزاح النافذة بمقدار 4 أُطر، وتعاد الخطوات السابقة حتى نهاية الأُطر.

في كل جزء بطول 2.02ms نختار 16 إطارًا مفتاحيًّا، ثم يُقيَّس كلُّ إطار ليصبح بعداه 227x227، ويُستحدَث (LBP Image - Local Binary pattern) و ( Interlaced Derivative pattern - IDP Image) لكلِّ إطار مفتاحي لإدخالها جميعًا في الشبكة العَصَبونية، كما في الشكل (4). تفيد النماذج LBP وIDP في استخراج سمات أفضل من الصورة وتساعد على تحديد جنوسة المتكلم [7].

الشكل 4: مراحل معالجة أطر الفيديو

جرى تدريب النموذج باستعمال قاعدة البيانات Big Data التي تحوي مقاطع فيديو سُجِّلت لطلاب جامعة تطوعوا لبناء تلك القاعدة. لتقييم نظام التعرُّف حُسبت مصفوفة الالتباس Confusion Matrix، وكانت النتائج كما في الشكل (5). [2]

الشكل 5: مصفوفة التعرُّف Confusion Matrix

تبيِّن هذه المصفوفة أن الشعور بالحزن هو الشعور الطاغي، وقد كُشِفَ بدقةٍ وصلت إلى 98.5%، أما الشعور بالدهشة فكان الأقل دقة. وتُظهر المصفوفة كذلك أن النظام قد يكشف الشعور بالخوف على أنه شعور بالدهشة بنسبة 8.7%. ومع ذلك فإن هذه النتائج تُعتبر منافسة عالميًّا.

المراجع:

[1] A. Landowska, A. Kołakowska, M. Szwoch and W. Szwoch, "Emotion recognition and its applications," Springer-Verlag Co, vol. 3, pp. 51 -62, 2016

[2] S. Hossain and G. Muhammad, "Emotion Recognition Using Deep Learning Approach from Audio-Visual Emotional Big Data," Information Fusion, pp. 69-78, 2019

[3] I. Goodfellow, Y. Bengio and A. Courville, Deep Learning, The MIT Press, 2016

[4] I. M. A. Shahin, "Gender-dependent emotion recognition based on HMMs and SPHMMs," International Journal of Speech Technology, pp. 133-141, 2013

[5] H. Purwins, B. Li, T. Virtanen, J. Schlüter, S.-y. Chang and T. Sainath, "Deep Learning for Audio Signal Processing," JOURNAL OF SELECTED TOPICS OF SIGNAL PROCESSING, vol. 13, no. 2, p. 206–219, 2019

[6] V. Paul and M. J. Jones, "Rapid Object Detection using a Boosted Cascade of Simple," Proceedings of the 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, vol. 1, p. 511–518, 2001

[7] A. Shobeirinejad and G. Yongsheng , "Gender classification using interlaced derivative patterns.," 2010 20th International Conference on Pattern Recognition, IEEE, pp. 1509-1512, 2010

قد ترغب كذلك بقراءة

تتبع نظرات العين البشرية باستعمال تقنيات تعلم الآلة

تعرف الوجوه باستعمال التعلم العميق

الترجمة الآلية باستعمال التعلم العميق

تركيب الكلام باستعمال التعلم العميق