بقلم شفيع البيطار
مهندس معلوماتية
المقدمة
يُعد استكشاف وعرض المجموعات الكبيرة جدًّا من المعطيات Big Data الواردة من مصادر مختلفة على مواقع الإنترنت تحديًا كبيرًا للمطورين. ويجري استكشاف المعطيات وتحليلها عادةً بالاستعانة بنظم التمثيل البياني Data Visualization التي تساعد متخذي القرار على اتخاذ التدابير المناسبة لتحسين الواقع الحالي للمؤسسة.
سنوصِّف في هذه المقالة المتطلبات والتحديات الرئيسية التي ينبغي مواجهتها ومعالجتها باستعمال أنظمة التمثيل البياني للمعطيات الكبيرة على مواقع الإنترنت، ثم نعرض بعض الأنظمة التي طوَّرها مجتمع الوب Web Society، ونناقش إلى أي مدى تفي هذه النظم بالمتطلبات.
المتطلبات
إن الهدف الرئيسي من تحليل المعطيات وتمثيلها بيانيًّا هو – بوجه عام – تقديم طرق لإدراك المعلومات واستخلاص المعرفة والاستدلال، ويقدم التمثيل البياني وسيلة للمساعدة على استكشاف محتوى المعطيات بسهولة وتحديد الأنماط المهمة واستنتاج الترابط فيما بينها.
ويمكن اعتبار أنظمة تحليل وتمثيل المعطيات بأنها أدوات ذات أهمية كبيرة في مجال المعطيات الكبيرة؛ فالحجم الكبير وعدم التجانس في المعلومات يجعل من تحليلها واستعراضها يدويًّا أمرًا في غاية الصعوبة، يضاف إلى ذلك أن الأنظمة التقليدية غير قادرة على التعامل مع العديد من قواعد المعطيات الكبيرة المعاصرة مثل (HBase, MongoDB…) وغيرها.
فلذلك ينبغي أن تكون نظم التمثيل البياني الحديثة قادرة على تحقيق قابلية التوسع Scalability باعتباره متطلبًا أساسيًّا، وعلى معالجة العديد من القضايا المتعلقة بالتخزين Storage، وآلية الوصول Access، وطريقة التقديم Presentation، والعرض Rendering، والتفاعل Interaction وغيرها.
أنظمة التمثيل البياني على مواقع الإنترنت
نستعرض فيما يلي بعض الأنظمة والمشاريع التي أنجزت في مجال عرض المعطيات الكبيرة على مواقع الإنترنت. وقد صُنفت هذه الأنظمة وفق أصناف وفئات محددة؛ هي:
- الأنظمة الاستكشافية Explorative Systems.
- الأنظمة العامة للتمثيل البياني General Visualization Systems.
- أنظمة التمثيل البياني الخاصة بمجال معين Domain-specific Visualization Systems.
- أنظمة التمثيل البياني المعتمدة على البيان Graph-based Visualization Systems.
وفيما يلي بعض الأمثلة على هذه الأنظمة وما تقدمه من مزايا:
أولًا: الأنظمة الاستكشافية
يطلق على هذه الأنظمة اسم Web Of Data (WOD)، وهي من أوائل الأنظمة التي طُوِّرت لاستعمالها في معطيات الوب وتحليلها. وعلى غرار المتصفحات التقليدية (IE, Mozilla…) فإن هذه الأنظمة توفر وظيفة التجوال Navigation وتمثيل موارد معطيات الوب وخصائصها، ومن ثَم إمكان تصفح واستكشاف معطيات الوب بطريقة سهلة. يبيِّن الجدول الآتي عددًا من هذه الأنظمة وبعض مزاياها:
النظام |
المزايا |
Haystack |
يَستعمل واسمات الأنماط Stylesheets لتخصيص عرض المعطيات Customiztion |
Disco |
يَستعمل جداول بصيغة HTML لعرض نماذج البيانات RDF على شكل ثنائيات Property-Value. انظر الشكل 1 |
Noadster |
يصنِّف المعطيات بحسب الخصائص Property-Based بغية هيكلة النتائج |
Piggy Bank |
هو توسعة لمستعرض الوب التقليدي، ويمكِّن من تحويل محتوى HTML إلى RDF |
LESS |
يتيح بناء قوالب وب لتجميع وعرض المعطيات |
Tabulator |
يزوِّد بالخرائط ويوفر آلية عرض حسب الزمن |
LENA |
يعرض المعطيات وفق مشاهد مختلفة تبعًا لمعايير استعلامات SPARQL |
DataVisor |
يعالج دفقًا من المعطيات بالزمن الحقيقي، ويوفر واجهة للتنبيه بالمخاطر. انظر الشكل 2 |
gFacet |
يقدم بحثًا وتجوالًا تصنيفيًّا للموارد المتاحة على الوب faceted browsing |
VisiNav |
يتيح طرح الاستفسارات المعبرة والاستطلاعية، معتمدًا على المفاهيم الآتية: keyword search, object focus, path traversal, facet selection |
Information Workbench (IWB) |
منصة لإدارة المعطيات الدلالية Symantic Data توفر واجهة مرنة لعرض المعطيات |
URI Burner |
خدمة توفر بيانات عن الموارد، وعند الاستعلام عن مورد ما تولِّد بيانًا بصيغة RDF |
الشكل 1 نظام Disco
الشكل 2 نظام DataVisor
ثانيا: الأنظمة العامة للتمثيل البياني
في سياق الاستكشاف المرئي للمعطيات المنتشرة على الوب، يوجد عدد كبير من الأنظمة العامة للتمثيل البياني التي تقدم نطاقًا واسعًا من أنواع العرض المرئي والعمليات على هذه المعطيات. وفيما يلي موجز عن هذه الانظمة وطريقة تعاملها مع معطيات الوب الكبيرة.
- يقوم النظام Rhizome باستكشاف وعرض معطيات الوب الكبيرة عن طريق إعطاء نظرة شاملة للمعطيات، واستعمال طرق التكبير والتصغير Zoom وفلترة تدفق العمل. ويقدم أنواعًا مختلفة من العروض مثل الخرائط والمخططات الزمنية والخرائط الشجرية والمخططات البيانية. انظر الشكل 3
الشكل 3 نظام Rhizome
- يعتمد النظام VizBoard على عرض مجموعات المعطيات بشكل مركب وتفاعلي.
- تُعد LODWheel أداة عرض على الوب تجمع مكتبات جافا سكريبت (MooWheel, JQPlot) بغية عرض بيانات RDF في مخططات Charts ورسوم بيانية.Graphs
- SemLens هي أداة عرض تجمع الرسوم البيانية المتفرقة والصور الدلالية، وهي تساعد على عملية الاستكشاف البصري للارتباطات والأنماط في المعطيات.
- يوفر نموذج التمثيل البياني المرتبط للمعطيات Linked Data Visualization Model (LDVM) عملية عرض مجردة لمجموعة معطيات وب كبيرة، حيث يجري ربط مجموعات معطيات مختلفة بأنواع مختلفة من التمثيل والعرض بطريقة ديناميكية. تتألف عملية العرض من أربع مراحل هي: تجميع بيانات المصدر، والتجريد التحليلي، والعرض المجرد، وعرض المشهد النهائي.
- يعد النظام Payola إطارًا عامًّا لعرض وتحليل معطيات الوب الكبيرة المترابطة، حيث يقدم مجموعة متنوعة من الإضافات الخاصة بتحليل المجال، إضافة إلى عدة تقنيات للعرض (مثل الرسوم البيانية والجداول)، ويقدم كذلك ميزة تعاون بين المستعملين ويساعدهم على توليد ومشاركة تحليلات خاصة. ويمكن تخصيص العرض وفقًا لأنطولوجيا المعطيات الناتجة.
- يوفر معالج عرض المعطيات المرتبط (LDVizWiz) طريقة شبه أوتوماتيكية لإنتاج العرض المرئي الممكن لمجموعات معطيات الوب.
- SynopsViz هي أداة عرض على الوب مبنية على أساس نموذج شجري يقوم بتجميع هرمي للمعطيات يتيح استكشافًا متعدد المستويات لمجموعة كبيرة من المعطيات. ولتوفير قابلية التوسع في ظل سيناريوهات الاستكشاف المختلفة، فإن هذا النموذج يبني تدريجيًّا تسلسلًا هرميًّا استنادًا إلى تفاعل المستعمل، إضافة إلى أنه يمكِّن من التكيف الديناميكي والفعال للتسلسل الهرمي لتفضيلات المستعمل.
- يقوم Vis Wizard باستكشاف دلالات المعطيات لتبسيط عملية إعداد المرئيات، وهو قادر على تحليل مجموعات معطيات متعددة باستعمال ربط الطرق والمسح.
- يدرس LinkDaViz العرض المناسب والأمثل لكل جزء من مجموعة المعطيات الكبيرة، وذلك باستعمال تحليل المعطيات الاستدلالي لتسهيل الربط التلقائي بين المعطيات وخيارات العرض.
- تجمع الأداة ViCoMap بين التحليل الإحصائي لمعطيات الوب والعرض المرئي، وبذلك يمكنها تحليل الارتباطات وعرض المعطيات على الخرائط.
ثالثًا: أنظمة التمثيل البياني الخاصة بمجال معين
نستعرض هنا الأنظمة التي تستهدف احتياجات التمثيل البياني لأنواع محددة من المعطيات والنطاقات، وتركز معظم هذه الأنظمة على عرض واستكشاف المعطيات الجغرافية المكانية GIS.
- الأداة Map4rdf تمكِّن من عرض مجموعات البيانات RDF على خريطة جوجل. انظر الشكل 4
الشكل 4 نظام Map4rdf
- تركز الأداتان SexTant و Spacetime على عرض واستكشاف البيانات الجغرافية المكانية المتغيرة زمنيًّا.
- VISUalization Playground (VISU) هو أداة تفاعلية لتحديد وتكوين مشاهد مرئية باستعمال معطيات مرتبطة موجودة على Cloud، ويقدم واجهة لعرض النتائج على مخططات غوغل.
- مجموعة OpenCube Toolkit تقدم العديد من الأدوات المتعلقة بمعطيات الوب الكبيرة. وعلى سبيل المثال، يستكشف متصفح OpenCube مكعبات بيانات RDF عن طريق تقديم جدول ثنائي البعد. ويوفر المتصفح Map view عرضًا قائمًا على الخريطة التفاعلية من مكعبات البيانات RDF على أساس البعد الجغرافي المكاني. ويتيح متصفح Linked Data Cubes (LDCE) استكشاف وتحليل مجموعات المعطيات الإحصائية، ويقدم كذلك العديد من الخرائط والرسوم البيانية والمخططات للمعطيات الديموغرافية والاجتماعية والإحصائية المرتبطة بمكعب بيانات RDF.
- DBpedia Mobile هو تطبيق يعمل على الهواتف الذكية لاستكشاف الموارد وعرضها، وهو حساس للموقع، ويأخذ بالحسبان إمكان الاستعمال ومعالجة المعطيات الكبيرة وفقًا لحجم العرض الصغير والموارد المحدودة الخاصة بالهواتف الذكية. انظر الشكل 5
الشكل 5 نظام DBpedia Mobile
رابعًا: أنظمة التمثيل البياني المعتمدة على البيان
يوجد عدد كبير من أنظمة التمثيل البياني لمعطيات الوب التي تعتمد التمثيل باستعمال البيان، منها:
- RelFinder أداة مبنية على الوب تقدم استكشافًا وعرضًا تفاعليًّا للعلاقات بين موارد معطيات الوب المحددة.
- Fenfire و Lodlive أداتان استكشافيتان تمكنان من استعراض معطيات الوب باستعمال البيان، تبدأ من عنوان وب مُعطى، ويمكن بواسطتها استعراض معطيات الوب بتتبع الوصلات.
- LODeX أداة لتوليد عرض موجز لموارد معطيات الوب. دخلها عنوان معالج SPARQL، وتولِّد بيانًا موجزًا لمورد معطيات الوب مترافقًا مع معلومات إحصائية وهيكلية للمورد. انظر الشكل 6
الشكل 6 نظام LODeX
- IsaViz تتيح التجوال والتكبير بواسطة البيان الخاص بـ RDF، وتقدم عدة عمليات تحرير (إضافة، حذف، تعديل اسم...) للوصلات والعقد.
- graphVizdb بنيت على أساس تقنيات قواعد المعطيات والمعالجة المكانية لتقديم عرض تفاعلي لبيان ضخم من RDF.
- ZoomRDF توظِّف خوارزمية عرض ما يسمى بالفضاء الأمثل space-optimized لزيادة عدد الموارد المعروضة.
- CropCircles يَستعمل نهج الاحتواء الهندسي الذي يمثل هرمية البيان بمجموعة من الدوائر المتحدة المركز.
- Knoocks يجمع بين نهج الاحتواء والنهج المسمى عقدة-وصلة. وهو يعرض الأنطولوجيا Ontology على شكل كتل متداخلة، حيث تمثَّل كل كتلة على شكل مستطيل يحتوي على فرع جزئي يُعرض على شكل بنية شجرية.
- OntoTrix و NodeTrix تستعمل نموذج عقدة-وصلة وتمثيل المصفوفات المتجاورة.
- Trisolda تقترح عرض بيان هرمي للملفات RDF وتعتمد تقنيات التصنيف لدمج عقد البيان.
- RDF graph visualizer تستعمل مقاربة node-centric لعرض بيان الـ RDF، وبدلًا من محاولة عرض البيان كاملًا يقوم باستكشاف العقد ذات الأهمية عن طريق البحث بتسميات العقد، ثم يقوم المستعمل بالتجوال التفاعلي ضمن البيان.
- RDF-Gravity يقوم بتمثيل معطيات RDF وOWL، ويتيح الفلترة والبحث باستعمال الكلمات المفتاحية وتحرير البيان. كذلك يمكن عرض العقد بألوان وأشكال مختلفة بحسب نوع الـ RDF.
- Gephi أداة عامة تقدم عددًا من ميزات التحليل والعرض لمعطيات البيان. وهي من البرامج المفيدة لاستكشاف وفهم المعطيات الكبيرة والرسوم البيانية التي يمكن تمثيلها بعقد وخطوط واصلة بينها، حيث يستطيع المستعمل التفاعل مع البيان، وتعديل الهياكل والأشكال والألوان، لكشف خصائص الشبكة. تُحمَّل البيانات المراد دراستها وتحليلها وعرضها عن طريق الأداة، وتقوم الأداة مباشرة بقراءة البيانات وتلخيصها فور تحميلها (عدد العقد – عدد الوصلات)، وقد يكون العرض الأولي معقدًا نوعًا ما، ولكن الأداة توفر بعض التحسينات على العرض والبيان ليصبح معبرًا ومفيدًا، بحيث يمكننا التحكم بالعرض لإنتاج توضيح مُبسط يمكن قراءته، حيث يزوَّد المستعمل بمجموعة من خوارزميات العرض (مثال: يقوم Force Atlas في الأداة بجعل العُقد المتصلة بوصلات أكثر ينجذب بعضها إلى بعضها الآخر، ويُبعد العُقد المتصلة بخطوط دقيقة). يوضح الشكل 7 طريقة العرض لمجموعة من المعطيات الكبيرة ضمن الأداة
الشكل 7 نظام Gephi
الخاتمة
استعرضنا عددًا من أنظمة التمثيل البياني للمعطيات الكبيرة على مواقع الإنترنت ومزايا كل منها، ويمكن للمطورين اختيار ما هو مناسب منها لتطبيقاتهم. ومن وجهة نظرنا فإنه ينبغي لمجتمع الوب الاهتمام في قابلية التوسع للمعطيات وتحسين الأداء باعتبارها متطلبات حيوية لتطوير أنظمة الاستكشاف والتمثيل البياني في المستقبل، ويجب التركيز على تقنيات التقريب مثل أخذ العينات والتجميع وتعديلها بما يتوافق مع متطلبات معطيات الوب وتضخمها، ويمكن استغلال تقنيات التخزين المؤقت والجلب المسبق... إلخ
وأخيرًا ينبغي العمل على تطوير بنى معطيات وفهارس تركز على تسهيل عملية الإظهار البياني للمعطيات الكبيرة بما يفيد في اتخاذ القرارات السليمة في الوقت المناسب.
المراجع
[1] F. Alahmari, J. A. Thom, L. Magee, and W. Wong. Evaluating Semantic Browsers for Consuming Linked Data. In ADC, 2012.
[2] M. Alonen, T. Kauppinen, O. Suominen, and E. Hyvönen. Exploring the Linked University Data with Visualization Tools. In ESWC, 2013.
[3] G. A. Atemezing and R. Troncy. Towards a linked-data based visualization wizard. In COLD, 2014.
[4] S. Auer, R. Doehring, and S. Dietzold. LESS – Template-Based Syndication and Presentation of Linked Data. In ESWC, 2010.
[5] B. Bach, E. Pietriga, and I. Liccardi. Visualizing Populated Ontologies with OntoTrix. IJSWIS, 9(4), 2013.
[6] F. Benedetti, L. Po, and S. Bergamaschi. A Visual Summary for Linked Open Data sources. In ISWC, 2014.
[7] N. Bikakis, J. Liagouris, M. Krommyda, G. Papastefanatos, and T. Sellis. Towards Scalable Visual Exploration of Very Large RDF Graphs. In ESWC, 2015.
[8] N. Bikakis, J. Liagouris, M. Krommyda, G. Papastefanatos, and T. Sellis. graphVizdb: A Scalable Platform for Interactive Large Graph Visualization. In ICDE, 2016.
[9] N. Bikakis, G. Papastefanatos, M. Skourla, and T. Sellis. A Hierarchical Aggregation Framework for Efficient Multilevel Visual Exploration and Analysis, 2015. Techn. Rep., http://arxiv.org/abs/1511.04750.
[10] N. Bikakis, M. Skourla, and G. Papastefanatos. rdf:SynopsViz - A Framework for Hierarchical Linked Data Visual Exploration and Analysis. In ESWC, 2014.
[11] Y. Park, M. J. Cafarella, and B. Mozafari. Visualization-Aware Sampling for Very Large Databases. In ICDE, 2016.