دراسات وأبحاث
البيانات المظلمة
العدد 156 | كانون اﻷول (ديسمبر)-2020

بقلم لودا علي
مدير حاضنة تقانة المعلومات والاتصالات في الجمعية العلمية السورية للمعلوماتية بحمص

المقدمة

تتسابق المؤسسات الحكومية وغير الحكومية في كثير من دول العالم على توظيف الذكاء الصنعي في تطبيقات عملية تساهم في تحسين خدماتها وعملياتها، لكن كثيرًا من هذه الجهود تصطدم بعقبة البيانات لاسيما المظلمة.

البيانات المظلمة (Dark Data) هي بيانات ضخمة غير مُنظمة (غير مهيكلة) تجمعها المؤسسات خلال أنشطتها المعتادة وتُخزنها، لكنها تخفق في الاستفادة منها في التحليلات وغيرها من الأغراض. وتحتفظ المؤسسات بالبيانات امتثالًا لقوانين معيَّنة أو تتردد في التخلص منها انتظارًا للاستفادة منها في المستقبل مع تحسن إمكانات المعالجة والتحليل.

تدعى البيانات المظلمة بيانات مغبرة dusty data أيضًا

من جملة البيانات المظلمة: بيانات تتبع نظام تحديد المواقع العالمي (GPS) التي غالبًا لا تخدم أي غرض بمجرد انتهاء التتبع، وبيانات وسائل التواصل الاجتماعي، وبيانات قرارات الشراء التي تظل داخل المواقع التي جمعت المعلومات.

تَغفل بعض المؤسسات عن القيمة الكبيرة الكامنة في البيانات غير المُنظمة، أو ربما تعجز عن توفير الموارد البشرية والمادية اللازمة لرقمنتها فتخسر معلومات حيوية من جراء الإخفاق في استكشاف جميع البيانات المُخزنة واستغلالها.

في ضوء التقدم التكنولوجي الراهن وخصوصًا في مجال الرؤية الحاسوبية computer vision (وهي تطبيقات ذكية قادرة على فهم محتوى الصور كما يفهمها الإنسان)، وتَعرُّف الأنماط والتحليلات الإدراكية، بات استيعاب البيانات المظلمة أسهل، ومهَّد الطريق أمام "تحليلات مُظلمة" تُركز على البيانات غير المُنظمة، تكشف عن رؤى دقيقة لا تُوفرها البيانات الحالية.

فمثلًا، إذا جمعنا بين البيانات المظلمة والبيانات السريرية، يمكن أن يصبح علاج الرعاية الصحية أكثر دقةً للوصول إلى المرضى المناسبين، في الوقت المناسب، مع العلاج المناسب بالجرعة المناسبة.

كيفية الاستفادة من البيانات المظلمة ودمجها في التحليلات الاستراتيجية

التحدي الأساسي الذي تمثله البيانات المظلمة ليس فقط في تخزينها، بل في تحديد قيمتها الحقيقية في بيئات يكون الكثير من البيانات المظلمة غير مركز عليها، لأن المؤسسات لا تعرف ما تحتويه. وقد يكون تدميرها محفوفًا بالمخاطر، وتحليلها مكلفًا، ومن الصعب تبرير هذه النفقات إذا كانت القيمة المحتملة للبيانات غير معروفة.

 لتحديد كون البيانات المظلمة تستحق مزيدًا من التحليل، تحتاج المؤسسات إلى وسيلة لفرز هذه البيانات وتنظيمها بسرعة وفعالية من حيث التكلفة. والحقيقة المهمة في التعامل مع البيانات المظلمة هي إدراك أنها ليست حدثًا لمرة واحدة.

تندرج البيانات التي يمكن أن تكون مظلمة في الأنواع التالية:

  • جداول البيانات وملفات الموظفين: ففي دراسة لإحدى الشركات تضم 1500 موظف وُجد أن لديها 2.5 مليون جدول بيانات، تصل إلى مليارات خلايا البيانات (البتات).
  •  إصدارات قديمة متعددة من المستندات وملفات .zip يتم تحميلها ثم تجاهلها.
  •  قواعد البيانات الخاملة ومعلومات العملاء غير المستعملة.
  •  ملاحظات المشاريع وتقارير تحليلات وبيانات المسح.
  • ملفات الدخول، ومرفقات البريد الإلكتروني، ومعلومات العملاء والحساب والتاريخ للمعاملات الإلكترونية.
  • محاضر اجتماع مجلس الإدارة والفريق التنفيذي.
  • ملاحظات مأخوذة من المكالمات الهاتفية.
  • العروض التقديمية والتقارير والبحوث والأوراق البيضاء.
  • تذاكر الخدمة وشكاوى الزبائن.

لتحقيق الاستفادة المثلى من هذا النوع من البيانات ينبغي البدء بتعرُّف البيانات المُتوفرة لدى المؤسسة التي ربما لم تَعِ وجودها من قبل، والبيانات الواردة من مصادر خارجية وكذلك الناتجة عن استعمال تقنيات جديدة مثل إنترنت الأشياء التي قد تدعم قرارًا أفضل، يلي ذلك وضع خطة استراتيجية لاقتراح أفضل الاستعمالات المُمكنة لهذه البيانات وتحديد مجالاتها، ثم الشروع في رقمنتها والاستفادة منها بحيث تُراعي كل خطة جديدة دور البيانات المستقبلية.

ينبغي أن يشمل التحويل الرقمي للبيانات عملية التدقيق لضمان جودتها ونزاهتها ومراعاة الخصوصية باكتشاف أية أخطاء وتصويبها، قبل نقل البيانات الرقمية إلى مكان تخزين جديد.

وأبرز مثال على هذه الفائدة: بيانات مشروع قديم حول العوالق الحيوانية في المحيطات كانت قد ساهمت مساهمة فعالة في دراسة تأثير تغير المناخ في البيئات الطبيعية.

البيانات المظلمة في الإنترنت

تُمثل السحابة العامة والبيئات المتنقلة أضعف الحلقات في مجال أمن البيانات؛ إذ غالبًا ما تكون البيانات المخزَّنة في هذه البيئات غير مصنَّفة ودون حماية أيضًا.

كشفت دراسات عن أن نحو 52% من مجمل البيانات التي تخزنها المؤسسات في الإنترنت هي بيانات مظلمة "غير لازمة"، وليس لدى المسؤولين عن إدارتها أي فكرة عن محتواها أو قيمتها، لكنها تتسبب بانبعاث ما يصل إلى 5.8 مليون طن من ثاني أكسيد الكربون، بسبب الكميات الهائلة من الطاقة لتخزينها، في الوقت الذي لا داعي لتخزينها أصلًا.

تتوقع الدراسات أنه بحلول عام 2025 ستصل البيانات المخزنة في جميع أنحاء العالم إلى 175 زيتابايت (1 زيتابايت = 10247 بايت)، علمًا بأنها كانت 33 زيتابايت في عام 2018. لذلك من الضروري أن تعمل الشركات على تطوير استراتيجيات إدارة البيانات الخاصة بها، واستعمال الأدوات الصحيحة لتحديد البيانات المهمة وتنظيف مراكز بياناتها من البيانات الهائلة غير المصنفة - التي تعرف بالبيانات المظلمة - باتباع الخطوات التالية:

  • تحديد جميع مستودعات البيانات والاطلاع عليها.
  • التركيز على البيانات المظلمة لاسيما التي تعتقد أنها قد توفر رؤى.
  • أتمتة عمليات اكتشاف وتحليل البيانات.
  • تقليص كميات البيانات وصياغة الضوابط الضرورية.
  • الرقابة الكفيلة بضمان الالتزام المستمر بمعايير الامتثال.

يُعَدُّ الاطلاع على أماكن تخزين البيانات والمعلومات الحساسة والجهات المخوَّلة بالوصول إليها ومدة الاحتفاظ بها خطوة أولى وهامة ضمن جهود تحديد البيانات المظلمة وأساسًا ضروريًّا للانطلاق. تُتيح هذه المقاربة الاستباقية في مجال إدارة البيانات للمؤسسات فرصةَ الاطلاع على البنى التحتية الخاصة بالبيانات والتخزين الاحتياطي، لكي تُمسك بزمام المبادرة فيما يتعلق بالمخاطر ذات الصلة بالبيانات، ثم اتخاذ قرارات مدروسة وموثوقة حول نوعية البيانات التي يمكن حذفها.

ينبغي على الشركات الراغبة بمواكبة الزيادة الهائلة في أحجام البيانات أن تعمل على أتمتة عمليات التحليل والتعقب، وإعداد التقارير اللازمة لتحقيق المساءلة المؤسسية عن البيانات المظلمة واستعمال الملفات ضمن بيئة آمنة.

قد تُضطر الشركات إلى التعامل مع أحجام هائلة من البيانات ومليارات الملفات؛ ومن ثَم لا بدَّ لمقاربتها الخاصة بتحليل البيانات أن تتكامل مع حلول الأرشفة والتخزين الاحتياطي وأمن المعلومات للحيلولة دون خسارة البيانات وضمان الحفاظ على البيانات المتوافقة مع سياسة الشركة.

تتيح عمليات تصنيف البيانات والاحتفاظ المرن بها وسياسة الامتثال حَذْفَ المعلومات غير ذات الصلة، لتُشكل ركيزة رئيسية للامتثال المؤسسي والمشاريع المتمحورة حول البيانات المظلمة.

لا بدَّ أن تقوم المؤسسات بتقييم قدرتها على مراقبة أنشطة الاختراق وسرعة الإبلاغ عنها لأغراض تتعلق بضمان تطبيق قواعد الامتثال، مثل النظام الأوروبي العام لحماية البيانات (GDPR).

الخاتمة

يتفاجأ قادة التحول الرقمي في كثير من المؤسسات بعدم قدرتهم على العمل على البيانات التي تمتلكها مؤسساتهم بصورة تَصلُح لتطبيقات الذكاء الصنعي النهمة للبيانات العالية الجودة، و يُعد تخزين البيانات وتأمينها عملية مُكلفة على مستوى الموارد البشرية والمالية، ومن ثَم يتعين على المسؤولين عن البيانات تقديم حجج قوية تُثبت أهمية الاستثمار في حفظ البيانات غير المنظمة وتحويلها إلى صور رقمية واستعمالها سواءً لرصد التغيرات التاريخية أو لمشروعات قصيرة الأجل أو لأغراض أخرى، وبصرف النظر عن الاستعمالات المختلفة، ينبغي أن تتبين فائدتها للمؤسسة.

الشركات الناشئة المختصة بملاحقة مشاكل البيانات المظلمة تجد فرصة لها في الأسواق الحالية بصعوبة، فهي تُنشئ أسواقًا جديدة عن طريق تسليط الضوء على أنواع جديدة من البيانات وإنشاء تطبيقات غير متوقعة بهذه البيانات، وعندما تنجح تصبح شركات كبيرة وتقدِّم فرصًا اقتصادية للمؤسسات بالاستفادة من تلك البيانات لتحقيق إيرادات جديدة أو تقليل التكاليف الداخلية، والمساعدة في تخطيط الأعمال. 

 

المراجع

Enterprise Dark Data A Clear and Concise Reference Paperback" 1-

November 11, 2018 by Gerardus Blokdyk 

2- https://www.amazon.com

3- https://www.zlib.net/zlib_tech.html

4- https://gdpr-info.eu/

5- https://www.bbvaopenmind.com/en/technology/

6- http://blogs.computerworld.com

7- https://www.gps.gov/systems/gps/arabic.php

 

الاختزالات:

 ZIP: is an archive file format that supports lossless data compression
GDPR: General Data Protection Regulation
GPS: Global Policy and Strategy
 

قد ترغب كذلك بقراءة
التعلم العميق وأنواع البنى فيه ومتطلباته
بحيرة المعطيات