دراسات وأبحاث
الهادوب وإدارة وتحليل البيانات الضخمة
العدد 153 | حزيران (يونيو)-2020

بقلم لودا علي
دكتوراة رياضيات تطبيقية

المقدمة
تنتج كل منظمة ربحية أو غير ربحية كمية هائلة من البيانات لتنفيذ خططها، وصار القدر الضخم من البيانات أحد أهم أصول المؤسسات والشركات، لاسيما إذا ما اجتمعت مع المهارات التحليلية باستعمال الخوارزميات والأساليب العلمية لاستخراج المعلومة من تلك البيانات.
 
 
غالبًا ما يستهدف تسجيل البيانات أغراضًا محددة مثل: تسجيل المبيعات لغايات ترتبط بالمحاسبة، ومتابعة المواد الخام لإدارة الجودة، وحساب الإعلانات على الإنترنت وعائداتها عن طريق متابعة عدد النقرات Clicks...إلخ.
 
 
الشكل 1: بنية منظومة قواعد البيانات
 
 
لماذا البيانات الضخمة Big Data؟
ازدادت كمية البيانات بمقدار 20 مرة بين عامي 2010 و 2020. ووفقًا لشركة البيانات الدولية فإن 77٪ من البيانات المتعلقة بالجهات المرتبطة بها هي بيانات غير مهيكلة Unstructured Data. وقد أدخلت تطبيقات البيانات الضخمة إمكانات متطورة في كل جوانب حياتنا اليومية حيث تتحول المؤسسات في كل صناعة تحولًا متزايدًا إلى قواعد بيانات هادوب و NoSQL وغيرها من أدوات البيانات الضخمة لكسب رضا العملاء وجني أرباحٍ متزايدة للمؤسسات بتفوقها في المنافسة. 
 
"81٪ من المؤسسات تقول إن البيانات الضخمة هي أفضل خمس أولويات في تكنولوجيا المعلومات"
هناك العديد من الصناعات التي توظف مجموعة من استعمالات البيانات الضخمة لضمان نجاح الأعمال عن طريق تحليل كميات هائلة من البيانات غير المهيكلة للحصول على رؤى عملية لترشيد القرارات.
 
 
مفهوم الهادوب وكيفية عمله
Hadoop ليس قاعدة بيانات، بل إطار عمل برمجي مفتوح المصدر يستند إلى Java بنسبة 100٪، وهو يدعم معالجة مجموعات البيانات الضخمة في بيئة المعلوماتية الموزعة، وهو نظام فعال أثبت جدارته من حيث التكلفة، وقابلية التوسع، والمعالجة المتوازية للبيانات الموزعة، وإدارة تجاوز الأخطاء تلقائيًّا ودعم مجموعات كبيرة من العقد، ومن أشهر مستعملي الهادوب:
Amazon, Akamai, Apple, AVG, eBay, Electronic Arts, Facebook, Google, IBM, ImageShack, LinkedIn, Microsoft, The New York Times, Twitter, Yahoo.
يشبه Hadoop نواة نظام التشغيل وتتألف أطر عمله من مكونين أساسيين هما HDFS (Hadoop Distributed File Systems) وإطار MapReduce المكتوبة بلغات مختلفة: Java و Ruby و Python و ++C. 
أما برامج MapReduce فهي متوازية في طبيعتها، ومن ثَم فهي مفيدة جدًّا لإجراء تحليل للبيانات على نطاق واسع باستعمال أجهزة متعددة في المنظومة.
يقوم Hadoop بتكرار كل جزء من البيانات على الأجهزة الأخرى الموجودة داخل المنظومة ويعتمد عدد النسخ التي يتم نسخها على عامل النسخ المتماثل.
 
 
الشكل 2: آلية عمل الهادوب
 
تمر العملية برمتها بأربع مراحل من التنفيذ: 
التقسيم
ينقسم الإدخال في MapReduce إلى أجزاء ذات حجم ثابت تسمى تجزئة الإدخال. 
رسم الخرائط
تمرَّر فيها البيانات بكل تقسيم إلى وظيفة التعيين لإنتاج قيم الإخراج. 
التبديل العشوائي
 تستهلك هذه المرحلة ناتج مرحلة رسم الخرائط، وتتمثل مهمتها في دمج السجلات ذات الصلة من إخراج مرحلة رسم الخرائط. 
التقليص
تجمع هذه المرحلة بين قيم الإخراج من مرحلة التبديل؛ أي تلخص مجموعة البيانات الكاملة.
ومع أن تقنية Hadoop أصبحت مجرد جزء في لغز البيانات الضخمة، فإنها تبقى تقنية ناضجة معتمَدة على نطاق واسع في الحالات الرئيسية – مثل مصفاة المعلومات غير المهيكلة – للعديد من مؤسسات تكنولوجيا المعلومات، ولا تزال أمامها مدة حياة طويلة مفيدة في العديد من هذه المؤسسات.
وبأخذ هذا المنظور الطويل الأجل في الحسبان، يستمر التحسين في طرق هندسة قابلية التشغيل المتداخل بين مكونات الأجهزة والبرامج المطوَّرة تطويرًا مستقلًّا لتصبح أكثر سلاسة.
 
البيانات الضخمة BIG DATA
 هي مجموعة من البيانات الضخمة جدًّا والمعقدة لدرجة أنه يُصبح من الصعب معالجتها باستعمال أداة واحدة فقط من أدوات إدارة قواعد البيانات أو باستعمال تطبيقات معالجة البيانات التقليدية. تشمل الصعوبات تحديات: الالتقاط، والمدة، والتخزين، والبحث، والمشاركة، والنقل، والتحليل والنمذجة. 
 
تعد البيانات الضخمة مفهومًا نسبيًّا؛ بمعنى أنه يقاس بحجم كل مؤسسة ووفق ظروفها، فبعض المؤسسات ترى أن البيانات التي تتعامل معها ضخمة جدًّا قد لا تساوي شيئًا بالنسبة إلى مؤسسة أخرى، وأن90% من البيانات المتوفرة في العالم أُنشئت في السنتين الأخيرتين نظرًا لما وفرته الإنترنت من سهولة إدخال المعلومات ومشاركتها؛ فهناك أكثر من 3 بلايين شخص على الإنترنت ينشرون معلومات تزيد على 8 زيتا بايت يوميًّا. فطائرة إيرباص واحدة مثلًا تنتج مليار سطر من الشيفرات البرمجية كل نصف ساعة، أضف إلى ذلك ما ينشره الأفراد على الفيس بوك والتويتر ومواقع التواصل الاجتماعي من بيانات رقمية، وفيديوهات...إلخ.
 
وعندما نتحدث بلغة الأرقام، فهناك أرقام كبيرة جدًّا مثيرة للدهشة في هذا المجال كما في الشبكات الاجتماعية والهواتف الذكية والحركات المالية وغيرها، لذلك بدأ يظهر مفهوم البيانات الضخمة في السنوات الأخيرة باعتباره تحديًا للشركات وعنوانًا للبحث العلمي، وهذا ما تدل عليه أعداد الأوراق البحثية المنشورة في هذا المجال. وكذلك بدأت تُطرح أسئلة مهمة تتعلق بكيفية وطريقة تنظيم وصول المعلومة إلى طالبها في خضم الكم الهائل من البيانات؛ منها مثلًا: 
"هل بالإمكان وضع نواظم معينة أو إضافة فلاتر واضحة ومحددة تتيح الوصول إلى المعلومة المناسبة في الوقت المناسب؟ 
وهل بمجرد الحصول على البيانات فقط نقول إننا وصلنا إلى الأهداف والغايات المرجوة، أم إن مقومات أخرى يجب الوقوف عندها لتحقيق التكامل وصولًا إلى التنمية والتقدم؟".
 
استثمار البيانات الضخمة 
أدركت الشركات مدى أهمية ألا تفوتها ظاهرة البيانات الضخمة التي تضع المعلومة بمتناول الجميع، مع ملاحظة أن نسبة صغيرة من الشركات لا تعاني من مشاكل مع هذا النوع من البيانات التي عندما يصبح حجمها هائلًا تغدو إدارتها أمرًا صعبًا، وإذا استغرقت عملية معالجة البيانات الضخمة أيامًا أو حتى ساعات تفقد المعلومات قيمتها، لذا ظهرت الحاجة إلى وجود حلول عملية مصمَّمة لمعالجة كميات البيانات الضخمة، بهدف تحويل "تسونامي" المعلومات ذهبًا.
 
 
 
الوجبات السريعة، في عصرنا، هي أكثر خيارات الطعام شعبية في جميع أنحاء العالم، ومفضلة على الأطعمة التقليدية المحلية الصنع، وذلك لتوفير الوقت، وإمكان تناولها أثناء التنقل. وهناك العديد من شركات الوجبات السريعة الشهيرة والرائدة في هذه الصناعة تعتمد على مساعدة البيانات الضخمة لتبقى في القمة.
 
 
 
على المصارف اتباع الكثير من الاستراتيجيات لضمان أمن المعلومات والحفاظ على الأرصدة والمقتنيات وضمان الأرباح. تُستعمل في القطاع المصرفي البيانات الضخمة الناشئة من التحصيل النقدي إلى الإدارة المالية لسنوات عديدة، وذلك لجعل البنوك أكثر كفاءة وتخفيف الأعباء على العملاء وزيادة الإيرادات. 
أما المطاعم، فتواجه الكثير من المنافسة والنضال لتأسيس اسم لها في السوق، مما يوجب على صاحب أي مطعم إدخال تطبيقات علوم البيانات في عمله لزيادة الكفاءة والإنتاجية، ويمكن أن يؤدي الابتكار المستدام دورًا مهمًّا في هذا المجال. 
 
 
وأما في قطاع السياحة، فتعدُّ البيانات الضخمة للأماكن والأشخاص في جميع أنحاء العالم مفيدة جدًّا للشركات السياحية، وذلك بتحليل البيانات التي يقدمها المسافرون على وسائل التواصل الاجتماعي ومعلومات بطاقات الائتمان والحسومات، وكذلك يمكن لشركات الحجز والسفر التخطيط بفعالية بالاستفادة من بيانات الركاب وأمتعتهم إضافة إلى معلومات الموقع الجغرافي وحركة المرور والطقس، وإرسال العروض والمزايا المناسبة للعميل المحدد، وتوفير الأمان باستعمال تقنية blockchain (وهي خدمة اسـتكشـاف بمحفظة تعمل بالعملة المشفرة توفر مخططات بيانات Bitcoin وإحصاءات ومعلومات السوق وتدعم Bitcoin , Bitcoin Cash , Ethereum).
 
وأما في التجارة الإلكترونية، فتوفر البيانات الضخمة مزايا تنافسية بتقديم رؤى وتقارير تحليلية تساعد على تحقيق الأهداف؛ كمعرفة أفضل وقت لبيع المنتجات، واتخاذ القرار الصائب (توريد، بيع …إلخ). 
 
 
تتسبب الكوارث الطبيعية مثل الأعاصير والفيضانات والزلازل في حدوث أضرار جسيمة وخسارات بشرية ومادية، والسبب الرئيسي وراء هذه الأضرار الهائلة عدم القدرة على التنبؤ باحتمال وقوع الكارثة واتخاذ ما يكفي من الاحتياطات تجاهها. ومع أن استعمال البيانات الضخمة في إدارة الكوارث ليست جديدة، إلا أن التطور الحديث للذكاء الصنعي واستخراج البيانات وتحليلها يساعدان خبراء الأرصاد الجوية على التنبؤ بأحوال الطقس بدقة أكبر.
 
تقوم شركات الكهرباء والطاقة بتحليل الانقطاعات وبيان العامل المشترك بينها. فعلى سبيل المثال يُتوقع حدوث انقطاع كهربائي في منطقة معينة بربط الانقطاعات الكهربائية بقوة الرياح عن طريق دراسة بيانات الطقس، وتوجيه فرقة دعم فني إلى المنطقة التي ستتعرض لرياح قوية قبل حدوث هذا الانقطاع لتقليل مدته.
 
 
تجمع الحكومات بيانات جميع المواطنين وتخزنها في قاعدة بيانات متعددة الأغراض، ويطبَّق علم البيانات على قواعد البيانات هذه لاستخراج معلومات ذات قيمة، فمثلًا يمكن تقييم كثافة السكان في موقع معين وتحديد المواقف المهددة المحتملة قبل حدوثها كما في الانتخابات مثلًا، ويمكن استعمال مجموعة البيانات هذه للعثور على أي مجرم واكتشاف الأنشطة الاحتيالية في أي نطاق مكاني. 
وفي القطاع الصحي يمكن التنبؤ بالانتشار المحتمل لأي فيروس أو أمراض واتخاذ الإجراءات اللازمة للوقاية، وهذا ما يحصل حاليًّا في التعاطي مع جائحة كوفيد- 19 على مستوى العالم، كما يمكن إسقاط ذلك على القطاعات المختلفة التي تسهم في صنع القرارات الحكومية -ومنها الإعلام- والتي بدأت تعمل بجدية في هذا المجال لجعل قراراتها معتمدة على خبرة البيانات الضخمة.
 
 
وللبيانات الضخمة في مجال الزراعة دور مؤثر في تحسين الأداء والتقليل من الخسائر وزيادة الإنتاج لتلبية الاحتياج والاستغناء عن الاستيراد بتحقيق الاكتفاء الذاتي والمكننة الزراعية.
 
 
يعد استعمال البيانات الضخمة في المدارس والكليات أمرًا شائعًا وهامًّا، فالتعليم هو العمود الفقري لأي أمة وضمان جودته مسؤولية الحكومة والمؤسسات التعليمية والتربوية. ويمكن أن تؤدي البيانات الضخمة إلى نتائج غير مسبوقة في ذلك وإدخال مناهج مبتكرة والتأكد من عدم تسرب أوراق الأسئلة قبل الامتحانات.
 
 
تغيرت اتجاهات التسويق للأعمال بالكامل وأصبح التسويق الرقمي هو المفتاح لإنجاح أي عمل تجاري، فإدارة الأنشطة الترويجية التسويقية لم تعد حكرًا على الشركات الكبيرة، بل أصبح بإمكان رواد الأعمال الصغار إدارة حملات إعلانية ناجحة على منصات وسائل التواصل الاجتماعي والترويج لمنتجاتهم. وهكذا جعلت البيانات الضخمة التسويق الرقمي قويًّا حقًّا، وجزءًا أساسيًّا من أي عمل تجاري Basket Analysis Market.
نحتاج في القطاع الحكومي إلى التعامل مع مختلف القضايا المعقدة المحلية والوطنية والعالمية يوميًّا. ويمكن أن يكون لتطبيق البيانات الضخمة تأثير هائل على هذا القطاع عن طريق جمع المعلومات عن ملايين الأشخاص بما يساعد على اتخاذ أي قرار بشأن المواطنين، ويمكِّننا من تحليل تأثير واستبيانات الرأي في تعديل أي قرار قبل صدوره.
يعد قطاع الاتصالات أحد أكثر المجموعات شيوعًا لتطبيقات البيانات الضخمة، فمع تزايد كمية البيانات التي تمر عبر قنوات اتصال مختلفة يصبح من المهم جمع هذه المعلومات لزيادة الربح ورسم الاستراتيجيات الفعالة للشركات بما يساعد على تحسين الإدارة وزيادة رضا العملاء.
 
 
نموذج الـ (V3 (Volume, Velocity, Variety  
إن الحصول على البيانات الضخمة سيف ذو حدين، فلا شك في أن للمعلومات ميزة تنافسية كبرى، ولكنْ هل "البيانات الضخمة" هي المفتاح لتحقيق الهدف المنشود؟ 
من المعلوم أن الخطوة الأولى في أي مشروع لتجميع البيانات يتمثّل في تحديد الهدف المطلوب تحقيقه منها، ومن المفيد أيضًا وضع صورة بصرية أو إطار عمل عن استعمال البيانات بهدف تنظيم شؤون العمل بطريقة فعّالة وعمليّة.
يجدر التأمل في مستوى المعلومات المتوفرة، قبل الدخول إلى مشاريع تتعلّق بـالبيانات الضخمة، إذ إن لدى شركات كثيرة بيانات قيّمة تنتظر استثمارها بمساعدة الذكاء الصنعي والأدوات التحليلية في المعلوماتية، ومن المهم التفكير في الاستفادة القصوى من المعلومات المتوفرة برؤية أفضل وأكثر اتساقًا للبيانات واستثمارها بالطريقة المثلى.
وعليه يجب وضع رؤية مركزية مدعومة بمخطّط لآليات عمل تخدم التركيز على الوقت والطاقة، مع تجنّب التشويش الخارجي.
 
 
 
يستعمل نموذج 3V لقياس أبعاد البيانات الضخمة بتعيين مدى حجمها (Volume) وتعقيدها (Variety) أي تنوع هذه البيانات واختلاف أنماطها (مهيكلة، وغير مهيكلة، ونصف مهيكلة) وسرعة معالجتها (Velocity) فالتغريدات مثلًا أسرع من غيرها.
يجب الانطلاق من البيانات المتوفرة ومدى الاستفادة منها فعليًّا، قبل الانخراط في توسيعها بالبيانات الضخمة، ويجدر التنبّه على أن زيادة كمية كبيرة من البيانات والمعلومات ربما أدّت إلى حال توصف بـ "شلل التحليل" أي انخفاض المردود الفعلي من البيانات بدل الزيادة المتوقّعة منها.
عند التفكير في أي حل لمعالجة البيانات الضخمة علينا النظر في كل بعد من أبعاد النموذج حتى تكون مطبقة وفعالة. 
 
الخلاصة
سيحصل خلال هذا العقد عدد أكبر من المستفيدين من حلول تحليل البيانات الضخمة كخدمات سحابية مسبقة الصنع وقابلة للتحديث التلقائي، وستعمل المزيد من هذه الخدمات على تكييف وتوليف نماذج التعلم الآلي المضمنة والتعلم العميق ونماذج الذكاء الصنعي من أجل تقديم نتائج العمل المثلى دون انقطاع. وستضم المزيد من هذه الخدمات إصدارات مجهزة سلفًا يمكن للعملاء تعديلها وتوسعيها وتطويرها بحيث تلبي احتياجاتهم الخاصة.
علينا أن ندرك أهمية تطبيقات البيانات الضخمة، مع أن تأثيره الهائل لم يكن جليًّا قبل مدة وجيزة. أما الآن، ومع توفر تقنيات الذكاء الصنعي والخوارزميات المتقدمة وتقنيات استخراج البيانات ومعالجة الصور، فقد أصبحت البيانات الضخمة ذات فائدة أكبر من أي وقت مضى في جعل الحياة اليومية أفضل وأكثر سلاسة.
الكلمات المفتاحية
Hadoop, Management, Analysis, Company, Big Data, SQL, Blockchain, Bitcoin, Company, Java, HDFS, MapReduce, Ruby, Python, C ++,Byte, Internet
ذكاء صنعي، بيانات، مهيكلة، تكنولوجيا، معلومات، سحابية، صناعة، قرار، هدف. 
 
المراجع
1. Hadoop: The Definitive Guide: Storage and Analysis at Internet Scale; Tom White
2.Big Data, Big Analytics Emerging Business Intelligence and Analytic Trends for Today's Businesses; wiley CIO 
3.http://www.ibm.com/solutions/sap/us/en/landing/hana.html
4.https://www.cisco.com/
5.https://www.wikipedia.com
6.https://www.ivorytraining.com
7.https://www.Techtarget.com
 
قد ترغب كذلك بقراءة
تكنولوجيا الهاتف المحمول والعمل المصرفي
نظم استرجاع المعلومات الموجهة لشبكات التواصل الاجتماعي