ملف العدد
تركيب الكلام باستعمال التعلم العميق
العدد 156 | كانون اﻷول (ديسمبر)-2020

بقلم محمود الياس
محاضر ومدير مشاريع برمجية

ينجذب المزيد من المهتمين إلى تقنية تركيب الكلام Speech Synthesis شيئًا فشيئًا، حيث تساهم التطوّرات الحديثة على صعيد تركيب الكلام باستعمال التعلّم العميق في تعزيز مجموعة واسعة من المجالات؛ مثل: التفاعل الكلامي الذكي Intelligent Speech Interaction، وروبوت المحادثة Chatbot، والذكاء الصنعي للمحادثة Conversational Artificial Intelligence.

للوصول إلى تركيب الكلام، تقدِّم التقنيّاتُ القائمة على التعلّم العميق مجموعةً واسعة من الأزواج <نص، كلام> تساعد على تعلُّم مزايا فعّالة تردم الهوّة بين النص والكلام، ومن ثَم تعطي توصيفًا أفضلَ لخصائص الأحداث. نبدأ مقالنا بعرض طرائق تركيب الكلام التقليدية، ثم نلقي الضوء على أهميّة النمذجة الصوتية الحاصلة من تركيب الكلام بالموسطات الإحصائية Statistical Parametric Speech Synthesis – SPSS، وبعدها نعرض لمحة عامّة عن التقدّم الحاصل في مجال تركيب الكلام المعتمِد على التعلّم العميق متضمِّنًا منهجيّات طرف-لطرف end-to-end التي فتحت الطريق أمام تطوير الأداء في السنوات الأخيرة. وفي النهاية نناقش مشكلات طرائق التعلّم العميق DL في تركيب الكلام، ونشير أيضًا إلى بعض الاتجاهات البحثيّة التي يمكن أن تنقل مجال تركيب الكلام إلى آفاق جديدة.

 

1. المقدمة

يُعد تركيبُ الكلام (المعروف أيضًا باسم تحويل النص إلى كلام Text-to-Speech (TTS)) تقنيةً شاملة تتضمن العديد من التخصصات؛ مثل: الصوتيات، واللغويات، ومعالجة الإشارة الرقمية، والإحصاءات. ومهمته الرئيسية هي تحويل النص المعطى إلى كلام. ومع تطور تقنيات تركيب الكلام؛ بدءًا من التركيب بالموسطات القائم على الصياغة، إلى الطرائق القائمة على ضم الأشكال الموجيّة، إلى تركيب الكلام بالموسطات الإحصائية، يشهد تركيب الكلام تقدّمًا عظيمًا. ومع ذلك، ما يزال الطريق طويلًا أمام الحواسيب لتوليد كلام بإحساس عالٍ من الطبيعية والتعبيريّة الصادر عن البشر. وينجم ذلك عن أن الأساليب الحالية تعتمد على نماذجَ ضحلةٍ لا تحتوي إلا على وحدات تحويل غير خطية ذات طبقة واحدة؛ مثل: نماذج ماركوف المخفية (HMMs)، وتعظيم الإنتروبية MaxEnt)). فقد أظهرت الدراسات ذات الصلة أن للنماذج الضحلة أداءً جيدًا في البيانات ذات البنى الداخلية الأقل تعقيدًا والأقل قيودًا، أمّا عندما يتعلّق الأمر بالتعامل مع البنى الداخلية المعقّدة (مثل الكلام واللغة الطبيعية والصورة والفيديو وما إلى ذلك)، فإن القدرة التمثيلية للنماذج الضحلة تقف شبه عاجزة. وهنا يأتي دور التعلم العميق بصفته مجالًا بحثيًّا جديدًا لتعلّم الآلة، إذ يمكنه التقاط البنى الداخلية المخفية للبيانات بفعالية أكبر واستعمال قدرات النمذجة الأشد قوة لوصف البيانات. وقد اكتسبت النماذج المعتمِدةُ على التعلم العميق تقدمًا كبيرًا في العديد من المجالات؛ مثل: تعرُّف خط اليد، والترجمة الآلية، وتعرُّف الكلام، وتركيب الكلام. لمعالجة المشاكل الموجودة في تركيب الكلام، اقترح العديد من الباحثين حلولًا قائمة على التعلّم العميق وحققوا تقدُّمًا كبيرًا. لذلك، فإن تلخيص طرائق تركيب الكلام المستند إلى التعلم العميق في هذه المرحلة سيساعدنا على توضيح اتجاهات البحث الحالية في هذا المجال.

2. طرائق تركيب الكلام التقليدية

يعتمد المفهوم الأساسي لتركيب الكلام على تحويل أي معلومات نصية إلى كلام قياسي وسلسٍ في الزمن الحقيقي. ويتضمن هذا المجال العديد من التخصصات؛ مثل: الصوتيات، واللغويات، ومعالجة الإشارة الرقمية، وعلوم الحاسوب، وما إلى ذلك. إنها تقنية متطورة في مجال معالجة المعلومات، خاصة لنظم التفاعل الكلامي الذكية الحالية.

بدأ تاريخ تركيب الكلام مع تطور تقنيات معالجة الإشارة الرقمية. وتطوَّر الهدف البحثي لتركيب الكلام من الوضوح والصفاء إلى الطبيعيّة والتعبيرية. يصف الوضوحُ قابليةَ فهم الكلام المركَّب، أما الطبيعية فتشير إلى سهولة الاستماع وسلاسته والاتساق في الأسلوب العام.

وقد استُعملت - في تطوير تقنية تركيب الكلام - محاولاتٌ مبكرة في طرائق التركيب بالموسطات Parametric synthesis methods. ففي عام 1971، استعمل العالم المجري كمبلين Wolfgang von Kempelen سلسلةً من المنافخ الدقيقة والينابيع وأنابيب القُرَب وصناديق الرنين لإنشاء آلة يمكنها تركيب كلمات بسيطة، ولكن وضوح الكلام المركب كان غايةً في الضعف. ولمعالجة هذه المشكلة، قدَّم كلات Klatt، في عام 1980، آلةَ النطق التسلسلي/المتوازي التي تعتمد على مجموعة مرشحات مربوطة على التسلسل أو التوازي لنمذجة إنتاج الكلام. أمّا الأدقّ تمثيلًا، فهو نظام تحويل النص إلى كلام DECtalk لشركة Digital Equipment Corporation (DEC) الأمريكية. يمكن وصل هذا النظام بحاسوب عن طريق واجهة قياسية، أو وصله مباشرة بشبكة الهاتف لتوفير مجموعة متنوعة من خدمات الكلام التي يمكن للمستعملين فهمها. ومع ذلك، ونظرًا إلى أن استخلاص الخصائص اللغوية لا يزال يمثل مشكلة صعبة، فإن جودة الكلام المركب تجعل من الصعب تحقيق الطلب العملي. وفي عام 1990، حسَّنت خوارزمية PSOLA - Pitch Synchronous OverLap Add جودةَ وطبيعيةَ الكلام المولَّد بواسطة طرائق جمع وضم الشكل الموجي في مجال زمني محدَّد. ولما كانت PSOLA تتطلب تحديد مدة النغمة أو نقطة البداية بدقة، فإن الخطأ في هذين العاملين سيؤثر تأثيرًا كبيرًا في جودة الكلام المركَّب.

وبسبب المشكلة المتأصلة في هذا النوع من الطرائق، لا يزال الكلامُ المركَّب غيرَ طبيعي ودون الكلام البشري. ولمعالجة هذه المشكلة، أُجريت بحوث متعددة حول تقنيات تركيب الكلام، واستعمل بعض الباحثين نماذج SPSS لتحسين طبيعية الكلام المركَّب. وكانت الأمثلةُ النموذجيةُ طرائقَ التركيب المعتمِدة على HMM، وعلى DL. وأظهرت النتائجُ التجريبية المكثفة أن الكلام المركَّب لهذه النماذج قد تحسَّن كثيرًا من جهة جودة الكلام وطبيعيّته.

ولمعرفة سبب استعمال تقنيات التعلم العميق لتوليد الكلام في هذه الأيام، من المهم معرفة الطريقة التقليدية لإنشاء الكلام. ثمة طريقتان محدَّدتان لتحويل النص إلى كلام: تحويل النص إلى كلام بالتجميع، والتحويل بالموسطات. وفيما يلي توضيح موجز لهاتين الطريقتين:

1-2. تركيب الكلام بالتجميع

تَجمع هذه الطريقةُ الأشكالَ الموجية للكلام الواردةَ من قاعدة البيانات، وتعطي دفقًا مستمرًّا من الكلام. يعتمد مبدؤها الرئيسيُّ على (1) اختيار وحدة الكلام المناسبة من مجموعةٍ محدَّدة من الكلام المسجَّل سابقًا، وذلك وفقًا لمعلومات السياق التي تم تحليلها من النص المدخل، وعلى (2) تجميع وحدات الكلام المحدَّدة للحصول على الكلام المركَّب النهائي. وقد حصل تحسُّنٌ كبيرٌ في طبيعة الكلام المركَّب، وفقًا لمعلومات السياق.

ثمة طريقتان لهذا النوع من التركيب: الأولى تعتمد على معاملات التنبؤ الخطي (LPCs)، والأخرى على PSOLA. تَستعمل الطريقةُ الأولى ترميزَ LPC للكلام لتقليل سعة التخزين التي تشغلها إشارة الكلام، وعند التركيب تجري عملية فكِّ ترميزٍ بسيطة تليها عملية تجميع. ويكون الكلامُ المركَّب بهذه الطريقة بسيطًا جدًّا لكلمة واحدة، لأن برنامج الترميز يحافظ على معظم معلومات الكلام. ولكنْ، ونظرًا إلى أن التدفق الطبيعي للكلمات عندما يتحدث الناس فعليًّا ليس مجرد تسلسل بسيط لوحدات الكلام المعزولة الفردية، فإن الأثر الكليَّ سيكون كبيرًا في نقاط التجميع. ولمعالجة هذه المشكلة، اقترحت خوارزميةُ PSOLA - التي تُولي مزيدًا من الاهتمام بالتحكم والتعديل في تقديم الكلام - عَرْضَ وحدة التجميع وفقًا للسياق المنشود، بحيث لا يحافظ الشكل الموجي النهائي على جودة الكلام للنطق الأصلي فحسب، بل يجعل الميزاتِ العَروضيَّةَ لوحدة التجميع متوافقةً مع السياق الهدف. ومع ذلك، لم تَخْلُ هذه الطريقة من العيوب؛ منها (1) أنَّ جودةَ الكلام المركَّب ستتأثر بمدة النغمة أو بنقطة البداية؛ ومنها (2) أنَّ مشكلةَ الحفاظ على انتقال سلس لم تُحلّ. وقد حدَّت هذه العيوبُ كثيرًا من تطبيق هذه الخوارزمية في تركيب الكلام المتنوع.

2-2. تركيب الكلام بالموسطات

يعني تركيبُ الكلام بالموسطات استعمالَ تقنيات معالجة الإشارة الرقمية لتجميع الكلام من النص. وتُعتبر العمليةُ الصوتية البشرية بمنزلةِ محاكاةٍ تُستعمل مصدرًا لحالة المزمار لإثارة مُرشِّح رقمي متغير بمرور الوقت يميز خصائص الرنين للقناة. يمكن أن يكون المصدرُ تسلسلًا نبضيًّا دوريًّا يُستعمل لتمثيل اهتزاز الحبال الصوتية للكلام، أو يكونَ ضجيجًا أبيضَ عشوائيًّا للإشارة إلى كلامٍ مهموس. وبضبط معاملات المرشِّح، يمكن تركيب أنواع مختلفة من الكلام. تتضمن الطرائقُ النموذجية لتركيب الكلام بالموسطات التمفصلية الميكانيكية للأعضاء الصوتية، وتركيب الكلام القائم على نماذج ماركوف المخفية HMM، وتركيب الكلام المعتمِد على الشبكات العصبونية العميقة DNN.

3.تركيب الكلام بالموسطات الإحصائية SPSS

يتألف نظام SPSS الكامل عمومًا من ثلاث وحدات: وحدة تحليل النص، ووحدة تنبؤ بالمعامِلات، التي تَستعمل نموذجًا إحصائيًّا للتنبؤ بموسطات السمات الصوتيّة (مثل التردّد الأساسي F0، والمُعامِلات الطيفية والمدة)، ووحدة تركيب الكلام. أما وحدة تحليل النص، فتعالج نصَّ الإدخال وتُحَوِّله إلى سمات لغوية يستعملها نظام تركيب الكلام، ومن ذلك: تطبيع النصِّ (أي جعله طبيعيًّا)، والتجزئة التلقائية للكلمات، وتحويل النص المكتوب إلى صوت منطوق. تكون هذه السمات (الميزات) اللغوية عادةً في أربعة مستويات: مستوى الكلمة، ومستوى المقطع، ومستوى العبارة، ومستوى الجملة. وأما وحدة التنبؤ بالمعامِلات، فالغرض منها التنبُّؤ بمعامِلات السمات الصوتية للكلام المستهدَف وفقًا لمخرجات وحدة تحليل النص. وأما وحدة تركيب الكلام، فتولِّد الشكلَ الموجيَّ للكلام المستهدَف وفقًا لإخراج وحدة التنبؤ بالموسطات باستعمال خوارزمية تركيب معينة.

يُقسم نظامُ SPSS عادةً إلى مرحلتين: مرحلة التدريب، ومرحلة التركيب. في مرحلة التدريب، تُستخرَج موسطات السمات الصوتية (مثل F0، والموسطات الطيفية من المجموعة)، ثم يُدرَّب نموذجٌ صوتيٌّ إحصائيٌّ بناءً على السمات اللغوية لوحدة تحليل النص إضافة إلى موسطات السمات الصوتية المستخرَجة. وفي مرحلة التركيب، يحصُل التنبُّؤ بموسطات السمات الصوتية باستعمال النموذج الصوتي المدرَّب مع توجيهٍ من السمات اللغوية. أخيرًا، يجري تركيب الكلام بناءً على موسطات السمات الصوتية المتوقعة باستعمال مرمِّزٍ صوتيّ.

1-3. تحليل النص

يعد تحليل النص وحدةً مهمة في نموذج SPSS. تعتمد طرائق تحليل النص التقليدية على مجموعة من القواعد. تتطلب هذه القواعد الكثير من الوقت لتجميعها وتعلُّمها. ومع التطور السريع لتقنية التنقيب عن البيانات، طُوِّرت تدريجيًا بعض الأساليب المعتمِدة على البيانات؛ مثل: طريقة الثنائيات المحرفية bigram، وطريقة الثلاثيات trigram، وطريقة نماذج ماركوف المخفية، وطريقة الشبكة العصبونية العميقة. يتضمَّن تحليلُ النص المستويات الخمسة التالية:

  • مستوى الصوت: الرموز الصوتية للسابق، الحالي، التالي، التالي بعد التالي، المسافة الأمامية أو الخلفية للصوت الحالي داخل المقطع.
  • مستوى المقطع: عدد الصوتيمات الواردة في المقطع السابق أو الحالي أو التالي، المسافة الأمامية أو الخلفية للمقطع الحالي داخل الكلمة أو العبارة، عدد المقاطع المشدَّدة قبل أو بعد المقطع الحالي داخل العبارة، المسافة من المقطع الحالي إلى الأمام أو الخلف أقرب مقطع لفظي مضغوط، صوتيمات المقطع الصوتي للمقطع الحالي.
  • مستوى الكلمة: جزء الكلام (POS) من الكلمة السابقة أو الحالية أو التالية، عدد المقاطع للكلمة السابقة أو الحالية أو التالية، الموضع الأمامي أو الخلفي للكلمة الحالية في العبارة، كلمة محتوى للأمام أو للخلف للكلمة الحالية داخل العبارة، المسافة من الكلمة الحالية إلى أقرب كلمة محتوى للأمام أو للخلف، نقطة البيع للكلمة السابقة أو الحالية أو التالية.
  • مستوى العبارة: عدد المقاطع في الجملة السابقة أو الحالية أو التالية، عدد كلمات العبارة السابقة أو الحالية أو التالية، الموضع الأمامي أو الخلفي للعبارة الحالية في الجملة، التعليق التوضيحي النمطي للعبارة الحالية.
  • مستوى الجملة: عدد المقاطع أو الكلمات أو العبارات في الجملة الحالية.

2-3. توقّع الموسطات

يجري في هذه المرحلة توقع الموسِطات الخاصّة بالسمات الصوتية (أو التنبؤ بقيمها)، بناءً على نتيجة وحدة تحليل النص والنموذج الصوتي المدرب. ثمة نوعان من طرائق التوقّع بالموسطات في SPSS: اعتمادًا على HMM، واعتمادًا على DNN:

3-3. التنبؤ بالموسطات اعتمادًا على HMM

تولِّد هذه الطريقةُ متتاليةَ قيم التردد الأساسي F0 والموسطات الطيفية من النموذج HMM الذي سبق تدريبه. تُحسَب متتاليةُ القيم من السمات الصوتية بتقديرٍ يعظِّم التشابه بوجود متتالية بتوزع غاوسي. ولما كان F0 يختلف في طبيعته عن الموسطات الطيفية، فيمكن استعمال نموذج ماركوف المخفي بكثافة مستمرة CD-HMM للموسطات الطيفية المستمرة ويكون خرج الحالة نموذجًا غاوسيًّا او مزيجا غاوسيًّا. وفيما يتعلق بـ F0، ولأن هذا الموسط غير موجود للأصوات المهموسة (F0 هو تردد اهتزاز الحبال الصوتية للأصوات المجهورة فقط)، فلا يمكن استعمال HMM لا المستمر ولا المتقطع، لذا جرى التوجُّه نحو توزع احتمالي متعدد الفضاءات لنمذجة المناطق المجهورة والمناطق المهموسة على نحو منفصل.

4-3. التنبؤ بالموسطات اعتمادًا على DNN

نعلم أن السماتِ الصوتيةَ لصوتيمٍ معيَّن تتأثر بالسياق، لذلك فللسياق دور مهم بالتنبؤ بها. يبين الباحثون أن عملية إنتاج الكلام تَستعمل بنية هرمية لتحويل معلومات السياق إلى الإشارة الصوتية. ومن هنا أتت فكرة نماذج البنى العميقة deep structures للتنبؤ بموسطات السمات الصوتية. هذه الطرائق لا تقابل السمات اللغوية المعقدة بالسمات الصوتية فحسب؛ وإنما أيضًا تَستعمل معلومات سياق، قصيرة-المدى طويلة، لنمذجة الترابط بين الأطر المتتالية وتحسين نوعية الكلام المركَّب. إضافة إلى ذلك يمكن أن تعاني النمذجة باستعمال HMM من انقطاعات بسبب التقدير المعتمد على أعْظَمةِ التشابه وهذه المشكلة غير موجودة في DNN.

4. تركيب الكلام اعتمادًا على التعلّم العميق

1-4. نعلم أن تركيب الكلام باستعمال HMM يقابل السمات اللغوية بكثافات احتمالية لموسطات الكلام مع عدة أشجار قرار. أما التعلم العميق DL فيقابل السمات اللغوية بالسمات الصوتية مباشرة باستعمال الشبكات العصبونية العميقة، التي أثبتت فعاليتها في تعلم السمات من المعطيات.

آلات بولتزمان المقيدة لتركيب الكلام:

هي شبكة عصبونية صنعية عشوائية توليدية يمكنها تعلم التوزع الاحتمالي لمداخلها، وحين تكون مقيدة لا يوجد ربط بين طبقاتها المخفية فيما بينها، وهذا يجعلها تتعلم بطريقة أفضل من غيرها. وتُستعمل لنمذجة الإشارات الكلامية وطيفها، وغالبًا ما تُستعمل في التدريب الأولي لشبكات DNN أو للمرمزات العميقة. وعند استعمالها مع HMM تعطي كلامًا مركَّبًا بنوعية أفضل من HMM-GMM، ولكنها لا تتخلص من مشكلة الانقطاعات.

2-4. شبكات الاعتقاد العميقة بتوزعات متعددة لتركيب الكلام:

هي طريقة لنمذجة التوزع المشترك لمعلومات السياق والسمات الصوتية. فهي تُنمذِج الطيفَ المستمر للكلام والموسطات المتقطعة (مجهور/مهموس) والفضاء المتعدد لـ F0 بنفس الوقت بثلاثة أنواع من هذه الشبكات. وهي تستعمل ترميز 1 من K للمقاطع الصوتية وموسطاتها كطبقة مرئية visible layer، وتحسب منها موسطات الطبقة المخفية، ثم تَستعمل موسطات الطبقة المخفية لحساب موسطات الطبقة المرئية، وهكذا حتى يتحقق التقارب. هذه الطريقة تعامِلُ كلَّ المقاطع الصوتية وتدرِّبها بنفس الشبكة، ولكن التردد الأساسي F0 لا يساهم كثيرًا في النمذجة، فيحصُل ضجيجٌ على F0 ونوعية سيئة للتركيب.

3-4. شبكات الكثافة المختلطة العميقة لتركيب الكلام:

هي شبكات تقابل سمات الدخل مع موسطات GMM وتعطي الكثافة الاحتمالية الشرطية (للخرج مشروطًا بالدخل). عند إدخال النص المراد تركيبه يجري أولًا تحويله إلى متتالية سمات لغوية، ثم يجري التنبؤ بمدة كل وحدة صوتية باستعمال نموذج تنبؤ بالمدة. ثم يجري تقدير F0 والموسطات الطيفية باستعمال هذه الشبكات، ثم يجري توليد موسطات مركب الكلام وإنتاج الكلام.

4-4. تركيب الكلام باستعمال شبكات عميقة ثنائية الاتجاه وذاكرة طويلة قصيرة-المدى:

تعتمد الشبكات السابقة اعتمادًا محدودًا على السياق، وتركِّب الكلامَ إطارًا إطارًا. ولتحسين النوعية، اقتُرحت الشبكات العصبونية التراجعية. ولكن أثر السياق في هذه الشبكات قد يضمحل أو يزداد وينفجر، لذلك استُعملت الذاكرة الطويلة القصيرة-المدى لتقابل السمات اللغوية في الدخل بالسمات الصوتية بالخرج.

يجري بداية تحويل النص إلى شعاع سمات، ثم توليد السمات الصوتية وتوليد الكلام.

يوجد أيضًا طرائق توليد الكلام من شبكات متتالية إلى أخرى seq2seq كانت تُستعمل بالأصل لتعرف الكلام والترجمة وأعطت نتائج جيدة، واستُعملت في التركيب لتعطي طيفَ mel spectrum للدخل النصي وتُركِّبَ الكلام.

5-4. تركيب الكلام من طرف إلى آخر:

تتطلب نظمُ تركيب الكلام من نصوص عادةً تحليل النصوص، ثم النمذجة الصوتية، ثم تركيب الكلام. جميع هذه المراحل تتطلب خبرةً وتدريبًا مستقلًّا إضافةً إلى كميات هائلة من المعطيات الموسومة. وهي مراحلُ متعبة، وقد تُصْدِر أخطاءً من مكونات تتراكب مع مكونات أخرى. من هنا أتت فكرة التركيب من طرف إلى آخر، تمامًا كما يتعلم الطفل اللغة من دون أي قواعد أو تحليل أو خبرة. وثمة تطبيقات كثيرة تعتمد هذا النهج وتعطي نتائج مذهلة؛ منها ما يعتمد على WaveNet أو Tacotron أو الشبكات العصبونية التلفيفية DeepVoice3، وهو أحد الأمثلة الذي يعطي نتائج جيدة وسريعة.

ومع أن التعلم العميق قد حلَّ الكثير من مشاكل تركيب الكلام، فينبغي ألَّا يغيب عن الأذهان أنه يتطلب كمًّا هائلًا من المعطيات وأزواج (النصوص-الكلام)، وأنَّ تحسينَ النوعية يتطلب طبقات مخفية أكثر وموسطات أكثر، وهذا بدوره يخلق تحديات أخرى للباحثين والمطورين.

 

المصطلحات المستعملة:

المصطلح بالعربية

المصطلح بالإنكليزية

الرمز بالإنكليزية

نص إلى كلام

Text-to-Speech

TTS

تركيب الكلام بموسطات إحصائية

Statistical Parametric Speech Synthesis

SPSS

نموذج ماركوف المخفي

Hidden Markov Model

HMM

تعلّم عميق

Deep Learning

DL

شركات معدّات رقمية

Digital Equipment Corporation

DEC

جزء الكلام

Part-of-Speech

POS

شبكة عصبونية عميقة

Deep Neural Network

DNN

معامِل التنبؤ الخطي

Linear Prediction Coefficient

LPC

تراكب وضم متزامن مع الدور الأساسي

Pitch Synchronous OverLap Add

PSOLA

نموذج ماركوف المخفي بكثافة مستمرة

Continuous Density Hidden Markov Model

CD-HMM

نموذج خليط غاوسي

Gaussian Mixture Model

GMM

آلات بولتزمان المقيّدة

Restricted Boltzmann Machines

RBM

شبكات الاعتقاد العميقة

Deep Belief Networks

DBN

تقدير تعظيم التشابه

Maximum Likelihood Estimation

MLE

شبكة الكثافة المختلطة

Mixed Density Network

MDN

شبكة عصبونية عَوديّة

Recurrent Neural Network

RNN

ذاكرة طويلة قصيرة-المدى

Long Short-Term Memory

LSTM

ذاكرة طويلة قصيرة-المدى ثنائية الاتجاه

Bidirectional Long Short-term Memory

BLSTM

شبكة عصبونية تلافيفيّة

Convolutional Neural Network

CNN

مرمّز آلي عميق

Deep Auto-Encoder

DAE

مرمّز آلي متغيّر

Variational Auto-Encoder

VAE

قياس متوسط الآراء

Mean Opinion Score

MOS

 
قد ترغب كذلك بقراءة
تتبع نظرات العين البشرية باستعمال تقنيات تعلم الآلة
تعرف الوجوه باستعمال التعلم العميق
الترجمة الآلية باستعمال التعلم العميق
تعرف العواطف من معطيات الصوت والصورة