دراسات وأبحاث
معالجة البيانات وتنقيتها في نظم المعلومات
العدد 160 | تشرين اﻷول (أكتوبر)-2021

بقلم لودا علي
دكتوراة رياضيات تطبيقية

يتعلق مفهوم نظم المعلومات في أي منظمة بكيفية التعامل مع المعطيات - التي هي وقود التعلم الآلي وتقانات الذكاء الصنعي- من حيث إمكان الحصول عليها من مصادرها المختلفة (الداخلية والخارجية)، ثم حفظها ونقلها واسترجاعها بهدف إجراء العمليات التشغيلية اللازمة عليها، وصولًا إلى تهيئتها كمخرجات لتكون بمثابة معلومات تحقق الفائدة لمستعمليها.
مما لا شك فيه أن توفر المعطيات مهم وتحليلها مطلب أهم؛ فكلما كان التحليل دقيقًا ومبنيًّا بطرائق علمية تتعامل مع كل مجموعة معطيات وكأنها قضية منفردة تُعامَل معاملةً خاصة كان هذا التحليل صحيحًا، والتحليل الصحيح ينتج عنه نتائج دقيقة وواضحة تبنى عليها قرارات سليمة.
تتضخم المعطيات يومًا بعد يوم وتتعدد مصادرها، وهذا يقود إلى تعرض هذه المعطيات للكثير من المشاكل التي تقلل من جودتها؛ من قبيل: كثرة المعطيات المفقودة، وعدم تناسق المعطيات، وكثرة الضجيج (noise) فيها.
يجب السعي لتكون المعطيات “مثالية” قدر الإمكان. فإذا كانت جودة المعطيات منخفضة، فإن ذلك سيؤثر حتمًا في نتائج تحليلها والتنقيب فيها. 
 
إعداد المعطيات للتحليل
تتضمن عملية جمع المعطيات وتخزينها ومعالجتها في الإنترنت عدة مستويات؛ ففي المستوى الأعلى توجد قواعد معطيات DBMS علاقاتية موجهة نحو SQL؛ مثل: SQL Server، وOracle...، وفي المستوى الثاني توجد مخدمات الملفات مع نوع نظام المعالجة في الإنترنت أو إصدارات الشبكة من DBMS الشخصية؛ مثل: R-Base، وFoxPro، وAccess...، وأخيرًا في أدنى مستوى توجد أجهزة الحاسوب المحلية للأفراد (مصادر المعطيات الشخصية).
 
 
تتنوع مجموعة العوامل التي تقلل من جودة المعطيات، ويمكن أن تتغير باستمرار. لذلك ينبغي إيلاء الكثير من الاهتمام لتنقية المعطيات عند تطوير نظم المعلومات المختلفة.
تنقية المعطيات ودمجها هي مجموعة من الأساليب والإجراءات التي تهدف إلى إزالة الأسباب التي تمنع من المعالجة الصحيحة لتلك المعطيات (الحالات الشاذة، السهو، التكرارات، عدم الاتساق، الضوضاء...) وما إلى ذلك من المشكلات التحليلية.
من الواضح أن المعطيات التي يتم جمعها لمهام التحليل يجب أن تكون كاملة وموثوقة، لأنه من المستحيل استخلاص استنتاجات صحيحة عن حالة العمل وطرائق تحسينه على أساس معطيات غير كاملة أو غير دقيقة، وهنا تبرز أهمية إثراء المعطيات.
 
 
يستفاد من عملية الإثراء في استكمال المعطيات ببعض المعلومات وزيادة إشباعها لتحسين كفاءتها، أو من عملية التخصيب في الحالات التي لا تحتوي فيها المعطيات على معلومات كافية لحل مشكلة تحليل محددة على الوجه المطلوب.
دمج المعطيات هو إجراء معقد متعدد الخطوات وجزء أساسي من عملية تحليل المعطيات، يوفر مستوًى عاليًا من الحلول التحليلية ومعالجة دقيقة للمعلومات.
 
أنواع نظم المعلومات
تعد المعلومات من أهم الدعائم الحيوية التي لا يمكن الاستغناء عنها في شتى المجالات، وتقانات المعلومات فعّلت وخزّنت وطوَّرت وأتاحت المعلومات بيسر في أنواع مختلفة للنظم أبرزها:
  1. نظم معالجة المعاملات (Transaction Processing Systems) TPS.
  2.  نظم المعالجة التحليلية الفورية(Online Analytical Processing Systems) OLAP .
  3. نظم مستودعات المعطيات (Data Warehouses Systems) DWS.
  4. نظم دعم القرار DSS (Decision Support Systems).
  5. نظم دعم القرار الجماعية GDSS (Group Decision Support Systems).
  6. نظم معلومات الشركات EIS (Enterprise information Systems).
  7. نظم تخطيط موارد الشركات ERP (Enterprise Resource Planning Systems).
  8. نظم إدارة سلاسل التوريد (SCM (Systems Supply Chain Management.
  9. نظم إدارة علاقات الزبائن (CRM (Customer Relationship Management Systems.
  10. نظم إدارة المعرفة Knowledge Management Systems) KMS). 
 
إن تنظيف المعطيات العالي الجودة هو مفتاح تحقيق نتيجة تنقيب ناجحة للمعطيات في جميع أنواع النظم، وهو أحد أهم المهام وأكثرها صعوبة في نفس الوقت لإضفاء الطابع الرسمي على عملية تحليل المعطيات واعتماديتها، نظرًا إلى أن مجموعة العوامل التي تقلل من جودة المعطيات متنوعة جدًّا ويمكن أن تتغير باستمرار، لذلك ينبغي إيلاء اهتمام شديد لتنقية المعطيات عند تطوير نظم المعلومات المختلفة.
 
ما الذي يجب تنظيفه من معطيات نظم المعلومات؟
يجب تنظيف مجموعة المعطيات من الأخطاء والتناقضات للحصول على نتائج عالية الجودة، وأهم مشاكل المعطيات التي يمكن التخلص منها عن طريق إجراء التنظيف هي:
  • مشاكل العلامات (الميزات أو الحقول): قيم المتغيرات والأعمدة في عرض جدول المعطيات، في هذا النوع من المشاكل نميّز ست مشاكل رئيسية:
            - القيم غير الصالحة، وهي التي تقع خارج النطاق المطلوب. مثال: القيمة 7 في حقل على مقياس مكون من 5 نقاط فقط؛
            - القيم المفقودة، وهي التي لم يتم إدخالها، أو التي لا معنى لها أو غير المحددة. مثال: إدخال الرقم 0000-0000-000 على أنه رقم هاتف؛
            - أخطاء إملائية، كالتهجئة غير الصحيحة للكلمات. مثال: "سابق" بدلًا من "سائق"، أو "حماة" بدلًا من "حمص"؛ 
            - تعدد المعاني، كاستعمال كلمات مختلفة لوصف نفس المعنى، أو استعمال اختصار واحد لمعان مختلفة.
                    مثال: "DB" يمكن أن يكون اختصارًا لعبارة "المعطيات الكبيرة" أو لعبارة "قاعدة المعطيات"؛
            - تبديل الكلمات، وعادة ما تظهر في حقول نصية ذات تنسيق حر؛
            - القيم المتداخلة، كالقيم المتعددة في خاصية واحدة، مثلًا الحقل ذو التنسيق الحر.
  • مشاكل السجلات: السجلات هي سلاسل مجموعة معطيات بواصفات محددة مميزة لها، نميز هنا أربع مشاكل رئيسية:
            - انتهاك التفرد (المفتاح الأساسي): مثلًا رقم جواز السفر أو معرف آخر؛
            - تكرار السجلات: وذلك بوصف كائنٍ ما مرتين بالوصف نفسه؛
            - عدم تناسق السجلات: وذلك بوصف الكائن نفسه بقيم مختلفة للخصائص؛
            - روابط غير صحيحة: انتهاك الاتصالات المنطقية بين الميزات.
 
تتلخص المهام الرئيسية للمعالجة المسبقة للمعطيات تمهيدًا لتحليلها والتنقيب فيها - هو جواب سؤالنا المطروح في هذه الفقرة- بما يلي:
         - تنقية المعطيات: ملء القيم المفقودة - اكتشاف المعطيات التالفة والقيم المتطرفة وإزالتها.
         - تحويل المعطيات: تطبيع المعطيات لتقليل القياس والتشويه.
         - ضغط المعطيات: إنشاء مجموعة مختارة من المعطيات أو الواصفات لتبسيط معالجة المعطيات.
         - تحديد المعطيات: تحويل الواصفات المستمرة إلى واصفات فئوية لتسهيل الاستفادة منها في بعض أساليب التعلم الآلي.
         - تنظيف النص: إزالة الأحرف المضمنة التي قد تنتهك محاذاة المعطيات، مثل علامات التبويب المضمنة في ملف محدد بعلامات جدولة، أو الأسطر الجديدة المضمنة.
 
معايير إعداد المعطيات وتنظيفها 
المعطيات هي مفهوم موضوعي إما أن تكون موجودة بالفعل كتغييرات في بعض العمليات الفيزيائية، وإما ألا تكون موجودة. أما المعلومات فهي في معظم الحالات غير موضوعية؛ فمثلًا إذا رأى خبير بمستوى معين من الخبرة والمعرفة معلوماتٍ مفيدةً في مجموعة معينة من المعطيات، فإن خبيرًا آخر بمستوى مختلف من الخبرة والمعرفة سيجد معلومات مختلفة تمامًا أو لن يجدها على الإطلاق.
 
 
عندما نبدأ في تحليل المعطيات للعثور على الأنماط المخفية واستخراج المعرفة، يجب أن نطرح عددًا من الأسئلة:
  • هل لهذه المعطيات معنًى ما؟ وهل تحتوي على أي معلومات؟
  • ما مدى موثوقية هذه المعلومات؟
  •  هل هذه المعلومات كافية لتوليد معرفة موثوقة ومعتمدة يمكن على أساسها اتخاذ قرارات إدارية مسؤولة؟
يجب أن تستوفي طريقة تنقية المعطيات عددًا من المعايير:
  • أن تكون قادرة على تحديد جميع الأخطاء والتناقضات الرئيسية وإزالتها، سواء في مصادر معطيات منفصلة أو عند دمج مصادر متعددة؛
  • أن تكون مدعومة بأدوات محددة لتقليل التحقق اليدوي والبرمجة؛
  • التحلي بالمرونة من حيث العمل مع مصادر إضافية.
في الممارسة العملية، يستعمل علماء المعطيات طريقتين لتنظيف المعطيات:
  • التنظيف الآلي للمعطيات باستعمال أدوات DBMS المضمنة في المعطيات الضخمة؛ مثل: Hive، وAzure، وSQL Server Data Tools وغيرها أو نظم متكاملة للتحليل الإحصائي؛ مثل: IBM SPSS، وSAS؛

  • تنقية المعطيات من تلقاء نفسها تتجلى عندما يبحث محلل المعطيات الضخمة بشكل مستقل عن البرامج النصية الجاهزة أو يطور البرامج النصية الخاصة به، ففي R أو Python مثلًا يجري تصحيح الأخطاء المطبعية في حقول النص.

وباستعمال إحدى الطريقتين المذكورتين آنفًا أو كلتيهما، يقوم عالم المعطيات أيضًا بتحويل أنواع المعطيات وتجميع الميزات وملء القيم المفقودة والتخلص من الضجيج والقيم المتطرفة.
عند اكتمال تنقية المعطيات بنجاح، يبدأ عالم المعطيات ما يمكن القول إنه الجزء الأكثر إبداعًا في الوظيفة وهو توليد الميزات.
 
يتنوع استعمال مصطلح "واصفة" أو "ميزة" أو "متغير" غالبًا في المجالات المتعددة من مجالات التعامل مع المعطيات؛ ففي مجال الذكاء الصنعي يُستعمل مصطلح "ميزة"، وفي مجال الإحصاء والبحث العلمي يُستعمل مصطلح "المتغيرات". أما في مجال قواعد المعطيات ومستودعات المعطيات مجال تنقيب المعطيات فيُستعمل مصطلح "واصفة"، فالواصفة أو المتغير (Attribute, Variable) هي حقل من حقول المعطيات تمثل خاصية أو ميزة لكائن المعطيات، ولكل سجل مجموعة من الواصفات (المتغيرات) المميزة له، تكون الميزات في العرض المجدول للسجلات هي أعمدة الجدول وتكون الكائنات هي الصفوف.
 
ثمة عدة أنواع من الواصفات (المتغيرات) بحسب طريقة قياسها؛ فمنها الواصفات النوعية ويتفرع منها الواصفات الاسمية والمنطقية والرتيبة، ومنها الواصفات الكمية أو الرقمية ويتفرع منها معطيات القياس المرحلي ومعطيات القياس النسبي.
  • المعطيات النوعية (Qualities Data): معطيات تصف ميزات الكائن دون تحديد كمياتها أو أحجامها، ولها ثلاثة أنواع فرعية هي:
          - المعطيات الاسمية (Nominal Data): ترتبط بالأسماء وقيمها فهي قيم اسمية أو رموز، يمكن أن تمثل فئات أو تصنيفات معينة لها عدد من المستويات، هذه المعطيات لا تخضع للترتيب في حال كانت جميع المستويات لها نفس الأهمية. على سبيل المثال: "يوم من الأسبوع" له سبعة مستويات محددة: الأحد، الاثنين، الثلاثاء...؛ "ساعة من اليوم" له 24 مستوى، "اسم محافظة سورية" يحتوي على 14 مستوى... إلخ.
قد يكون المحتوى أرقامًا لكن يتم التعامل معها كقيم اسمية؛ مثل: رقم الهاتف، الرمز البريدي... فالأرقام في هذه الحالات اسمية لا يمكن جمعها أو طرحها أو مقارنتها حسابيًّا.
            - المعطيات المنطقية (Boolean Data): معطيات اسمية أيضًا محصورة بقيمتين أو حالتين، على سبيل المثال: {صح، خطأ}، {0، 1}، {-1، 1}، {"نعم"، "لا"}... إلخ؛
          - المعطيات الرتيبة (Ordinal Data): هي المعطيات التي يمكن أن تأخذ قيمًا بترتيب معين، ولهذا الترتيب معنى ولكن دون الاهتمام أو الحاجة إلى معرفة الفرق الفعلي بين القيم المتتالية لهذا الترتيب. على سبيل المثال: قيم إبداء الرأي في استبيان حول (خدمة) أو (منتج) تكون بترتيب واضح ("سيئ جدًّا"، "سيئ"، "جيد"، "جيد جدًّا")، لكن الفروق بينها غير معلوم لمقدم الاستبيان على نحو محدد.
           - المعطيات الكمية أو الرقمية (Quantitative Data - Numeric Data): هي أنواع من المعطيات ذات قيم قابلة للقياس، يمكن التعبير عنها بأعداد صحيحة أو حقيقية (,+∞∞-)، ويمكن أن تكون بمقياس المجالات أو بمقياس النسب. 
         - معطيات بمقياس المجالات (interval-scaled): تقسَّم فيها المعطيات إلى مجالات متساوية ومرتبة القيم، وتكون هذه القيم موجبة أو سالبة أو صفرًا، ويمكن مقارنة بعضها ببعض وحساب الفرق فيما بينها، ويمكن كذلك حساب القيم الإحصائية المختلفة لها كالوسط والوسيط وغيرها من عمليات التحليل الإحصائي.
على سبيل المثال: في الأرصاد الجوية تقاس درجات الحرارة باستعمال مقياس التدرج المئوي على مدار أيام مختلفة من الأسبوع، حيث يمكن الحصول على قياس محدد كل يوم، ويمكن ترتيب هذه القيم تصاعديًّا أو تنازليًّا لمعرفة الأيام الأشد حرارة أو برودة، ويمكن حساب الفرق في درجة الحرارة بين الأيام المختلفة؛ وكذلك في قياس التاريخ وغيرها من الواصفات الشبيهة بها. لكن في هذا النوع من المعطيات يكون التعامل مع القيم على أنها مجالات وليس على أنها قيم رقمية بحتة.
لتوضيح هذا الأمر مثلًا فإنه لا يمكن القول بأن درجة الحرارة (30) درجة مئوية هي ضعف درجة الحرارة (15) درجة مئوية، كما أنه لا يمكن القول بأنه عندما تكون درجة الحرارة صفر فليس لها قيمة لها أو أنها صفر حقيقي، وكذلك في التاريخ فإن السنة صفر ميلادية لا تعني أنها بداية العالم.
          - معطيات بمقياس النسبة (ratio-scaled): هي المعطيات ذات السمة الرقمية التي تكون فيها قيمةُ الصفر قيمةً حقيقية، وتكون القيم قابلة للمقارنة، ويمكن ترتيبها وإجراء العمليات الحسابية عليها، وحساب القيم الإحصائية لها كالوسط والمنوال..
        من أمثلة هذا النوع (سعر المنتج، العمر، الدخل...) فكل هذه المعطيات ذات سمة رقمية من النوع النسبي، ويمكن ترتيبها وإجراء العمليات الحسابية عليها ومقارنتها وحساب النسبة بين كمياتها المختلفة. فإذا كان لدينا منتجان سعراهما على الترتيب (1000) ل. س، (500) ل. س، فيمكن القول إن سعر المنتج الأول هو ضعف سعر المنتج الثاني.
من جهة أخرى تنقسم المعطيات إلى معطيات منفصلة (متقطعة)، ومعطيات متصلة (مستمرة)؛
يمكن لأنواع المعطيات ذات الواصفات المنفصلة أن تأخذ قيمًا متعددة لكنها محدودة بعدد معين. من أمثلتها المهنة فهناك عدد محدود من المهن؛ أي إنها تنتمي إلى مجموعة معدودة ومنتهية، ويمكن أن تكون قيمًا اسمية أو رقمية مثلما يحدث عند استعمال النظام الاثناني في الحاسوب (0، 1) أو حتى في حقل العمر الذي يتم تحديده بالسنوات ضمن مجموعة محددة من الأرقام مثلًا (من0 إلى 100). 
إذا لم تكن الواصفة منفصلة فهي متصلة، وهذا يعني أن القيم المحتملة لها هي قيم غير محدودة وغير معدودة، وتمثل مجموعة الأعداد الحقيقية، يمكن أن تكون القيم أعدادًا طبيعية لكن لا يمكن حصرها في مجموعة محددة ومنتهية، أي إن قيمها تنتمي إلى مجموعة أعداد غير منتهية وغير محددة. من أمثلتها (سعر المنتج).
عند معالجة المعطيات النصية تُجرى عملية الترميز أولًا ثم التحويل إلى الصيغة الرقمية لها. وفي حالة الصور لا يحلَّل محتوى الصورة على أنها مجموعة من البكسلات (pixels) ذات الألوان المختلفة فحسب، بل يضاف إليها المعطيات الوصفية لملف الصورة: تاريخ التصوير، الدقة، نموذج الكَمِرة... إلخ.
غالبًا ما تقدَّم المعطيات الجغرافية على شكل عناوين (نصية) أو أزواج "خطوط الطول + خطوط العرض" (المجموعات العددية – النقاط).
 
يتضمن إنشاء الميزات ثلاث مهام مترابطة:
  • استخراج الميزات: تحويل المعطيات إلى رقمية بترميز النصوص ومعالجة الصور والمعطيات الجغرافية؛
  • تحويل الميزات: تعديل المعطيات لزيادة دقة الخوارزمية والتمثيل. على سبيل المثال: التطبيع - تغيير التوزيعات الاحتمالية؛
  • اختيار الميزات: إزالة الميزات غير المرغوب فيها بالاستعانة بخوارزميات التعلم الآلي مثل: الخوارزمية الجشعة (Greedy Algorithms)، والانحدار اللوجستي (Logistic Regression)، والغابة العشوائية (Random Forest)، وتعزيز التدرج (Graeme MacKay) وغيرها من الخوارزميات التي تستفيد من الإحصائيات للعثور على الأنماط ضمن كميات ضخمة من المعطيات.
 
 يعتبر التعلم الآلي العملية التي تقوم عليها الكثير من الخدمات المستعملة حاليًّا، مثل نظم الاقتراحات الموجودة في نتفليكس ويوتيوب وسبوتيفاي، ومحركات البحث مثل غوغل وبايدو، وأخبار ومنشورات التواصل الاجتماعي مثل فيسبوك وتويتر، والمساعدات الصوتية مثل سيري وأليكسا؛ ويُستعمل كذلك في نظم تعرُّف الوجوه والكلام وغيرها من نظم الذكاء الصنعي. وغالبًا ما تحتوي معطيات العالم الحقيقي على الكثير من الضجيج والأخطاء والقيم المفقودة، وقد تكون بصيغة غير قابلة للاستعمال المباشر سواء في التعلم الآلي أو التنقيب عن المعطيات. لذلك يعتبر تنظيف المعطيات وتحويلها إلى صيغة مناسبة خطوة أساسية لا بد منها لاستعمال تلك المعطيات على الوجه المطلوب. أما في سياق الذكاء الصنعي، فإن المعالجة المسبقة للمعطيات وتنظيفها تهدف إلى رفع جودة مجموعات المعطيات وتحسين دقة وكفاءة النماذج والنظم المختلفة. 
 
الخاتمة
من روافد نظم المعلومات قواعد المعطيات الإلكترونية (وهي مجموعة من المعطيات المنطقية المرتبطة بعلاقات رياضية تتيح الاستغلال الأمثل لما تحتويه من معلومات مرقمنة ومبوبة وفق نظم محددة)، وتعدّ من أكثر أوجه استعمالات التقانات الرقمية في مجال البحث العلمي بفعل الخدمات التي تقدمها والمتمثلة في ما تنتجه من فرص الاسترجاع السريع والميسر للمعلومات والاعتماد على الإنترنت في إيصال تلك المعلومات إلى طالبيها من كل بقاع العالم، ولكونها تشمل مصادر كاملة تتميز بالحداثة وتشمل أكبر عدد من الدوريات والتقارير والإحصاءات والأبحاث.
العامل المهم في أي عملية تحليل للمعطيات ليس فقط عملية التحليل وما تحتويه من التوقع والتقدير Predication) Estimation)، بل هناك عوامل مهمة جدًّا ما قبل التحليل هي: تنظيف المعطيات.
خلاصة القول: إن وجود نموذج Model بسيط مع معطيات ذات جودة عالية أفضل بكثير من نموذج دقيق ومعقد مع معطيات ذات جودة قليلة.
 
الكلمات المفتاحية
Systems -Purifying - Processing - SQL - Oracle -TPS - Warehouses – OLAP- Online Analytical – DWS- consultation- Data Mining- Decision Support- GDSS - DBMS- Enterprise information- Resource- SCM- CRM- Knowledge Management- Estimation - Predication- Algorithms- Attribute-Variable
نظم- معلومات- معطيات- تنظيف - إثراء - تخصيب- دمج- ضغط- ضجيج-نموذج– جودة- مهيكلة- إدارة - تخطيط- استراتيجية- أخطاء- سجلات- خبير- معيار- تحليل- تعلم آلي- ذكاء صنعي.
 
المراجع
1- https://4itmanonly.blogspot.com
2- https://economistsarab.com
3- https://www.belgelendirme.com
4- https://www.mdrscenter.com
5- https://www.sciencedirect.com
6- https://www.bigdataschool.ru/bigdata/data-preparation-operations.html
7- https://www.mql5.com/ru/articles/2029
8- http://datareview.info/article/universalnyj-podxod-pochti-k-lyuboj-zadache-mashinnogo-obucheniya
9- https://technologyreview.ae/technodad

 

قد ترغب كذلك بقراءة
مراقبة سلاسل توريد الأغذية باستخدام سلاسل الكتل وانترنت الأشياء
تعطل مخدمات فيسبوك: ماذا حصل بالضبط؟
الحفاظ على ملكية المنتجات الرقمية باستخدام الرموز غير القابلة للاستبدال