خلافًا للاعتقاد الشائع ، فإن التطورات الأكثر أهمية في هندسة البيانات المعاصرة ليست الاهتمام المتزايد بمفاهيم شبكة البيانات أو نسيج البيانات.
إنه في الواقع دمج هذين النهجين المعماريين في بنية واحدة تدعم كلاً من اللامركزية والمركزية ، وملكية البيانات المحلية وإمكانية الوصول الشامل والأساليب التنازلية والتصاعدية لإنشاء هذه المزايا.
الحقيقة هي أن أوجه التشابه بين بنى شبكة البيانات ونسيج البيانات تكاد تكون أكبر من الاختلافات بينهما. إنهم لا يتنافسون على إنشاء البيانات عبر (وبين) المنظمات ؛ هم في الواقع مكملون تمامًا في تحقيق هذا الهدف. عند تنفيذها بشكل صحيح باستخدام تقنيات الرسم البياني للمعرفة الدلالية ، فإنها تندمج في نهج ذي مستويين لابتكار منتجات بيانات قابلة لإعادة الاستخدام تغطي كل من مجالات الأعمال والمؤسسة.
منهجيات من أعلى إلى أسفل ومن أسفل إلى أعلى مجتمعة
في الواقع ، يتبنى مؤيدو نسيج البيانات العديد من الأفكار الأساسية التي ينادي بها مؤيدو شبكة البيانات.
مفهوم شبكة البيانات هو ببساطة فلسفة تصاعدية لنقل المسؤولية عن البيانات إلى وحدات الأعمال أو المجالات المعنية مع إلغاء التركيز على البنية التحتية المركزية مثل مستودعات البيانات. نسيج البيانات عبارة عن منهجية من أعلى إلى أسفل لنقل المسؤوليات لمجموعات البيانات الأقرب إلى مكان إنتاج البيانات بالفعل ويُزعم أنها تستخدم الذكاء الاصطناعي (AI) لدمج البيانات “ بطريقة سحرية ” للحصول على نسخة مركزية من الحقيقة.
ومع ذلك ، هناك حاجة إلى كل من شبكة البيانات وبنى نسيج البيانات. على مستوى أعلى ، يمكن أن ينضم نسيج البيانات (عبر المؤسسة) إلى منتجات البيانات لشبكة البيانات ، والتي توجد محليًا على مستوى أدنى. عندما يتم وصف أصول البيانات هذه بشكل جيد من خلال التقنيات الدلالية ، يمكن للمؤسسات توحيد هذه البنى مع تقليل التكاليف والوقت اللازم للتقييم واستخدام ETL (الدقيق والتحويل والتحميل) واستخدام ELT (الاستخراج والتحميل والتحويل) – مع زيادة قدرتها أيضًا على الاستغلال علاقات البيانات.
البنى التكميلية
يكاد يكون من المستحيل تنفيذ نسيج بيانات دون استخدام أفكار وتقنيات شبكة البيانات. تقوم شبكة البيانات بترجمة واجبات إدارة البيانات لمجموعات الأعمال بدلاً من دمجها عبر المجالات في خيارات مركزية مثل بحيرات البيانات ومنازل بحيرات البيانات.
تقوم أقمشة البيانات بنفس الشيء ؛ صنع واحد لا ينطوي على مركزية كل شيء في مستودع بيانات واحد ، على سبيل المثال. على العكس من ذلك ، يتطلب الأمر الحصول على البيانات من الأماكن المعنية ، وتنفيذ اتفاقيات مستوى الخدمة (SLAs) للبيانات ، وإنشاء خبراء المجال للمصادر ، ثم جعلهم يقومون بإضفاء الطابع الرسمي على البيانات الوصفية للبيانات بحيث تكون مجموعات البيانات نظيفة وموثوقة وقابلة لإعادة الاستخدام. يدرك أي شخص مطلع على شبكة البيانات أن تنفيذ أحدها يتضمن نفس المهام.
يسمي مؤيدو شبكة البيانات منتجات بيانات مجموعات البيانات المنسقة هذه. إن ناتج نسيج البيانات هو منتج بيانات أيضًا ، وإن كان منتجًا على مستوى أعلى موجود عبر المؤسسة (بدلاً من عبر وحدة أعمال).
على سبيل المثال ، قد ترغب الشركة في جعل SAP مصدرًا لنسيج البيانات الخاص بها. سيجعل مالكو البيانات لهذا المصدر هذه البيانات قابلة لإعادة الاستخدام بحيث تكون متاحة لبقية المؤسسة ، ولكن يعرضون البيانات حيث يكون ذلك منطقيًا مع الاحتفاظ بالسيطرة على تلك الأصول. يمكن لأتباع شبكة البيانات (وعادة ما يفعلون) أن يدافعوا عن نفس الأشياء لمصادرهم.
التنفيذ مع الرسوم البيانية المعرفية الدلالية
التقنيات الدلالية التي تدعم الرسوم البيانية للمعرفة RDF معدة لشبكة البيانات وبنى نسيج البيانات – وتوليفها. إنها بالتأكيد مثالية لصناعة منتجات البيانات. تتفوق التقنيات الدلالية في توفير أوصاف موحدة تستند إلى المعايير لأصول البيانات أو المنتجات في مصطلحات ملائمة للأعمال التجارية مصممة لفهمها ومشاركتها بين المستخدمين والأنظمة والتطبيقات.
يركز جوهر التكنولوجيا الدلالية على مشاركة نماذج مجال معين. يمكن للخبراء إنشاء هذه التقنيات بحيث يمكن إعادة استخدامها من قبل أي شخص يطلب منتج البيانات هذا – بغض النظر عما إذا كان ذلك لشبكة بيانات أو نسيج بيانات. بالإضافة إلى ذلك ، تدعم هذه التقنية بسهولة الجمع بين منتجات البيانات لإنشاء منتجات لحالات الاستخدام الطارئة ، مثل توصيل البيانات من نطاقات مختلفة لنسيج بيانات. يمكن أن يكون القيام بذلك بسيطًا مثل الجمع بين الرسوم البيانية المعرفية من المجالات الفردية.
في الوقت نفسه ، تعد تقنية الرسم البياني للمعرفة الدلالية هي الأمثل لتنفيذ أقمشة البيانات. تستلزم هذه البنية دمج البيانات من عدد كبير من المصادر وأنواع البيانات والمخطط ونقاط التمايز الأخرى. بعد ذلك ، أصبحت النماذج الناتجة أكثر تعقيدًا ، مما يستلزم وجود تقنيات لاستيعاب العلاقات والأوصاف المعقدة لربط هذه البيانات. تفي الرسوم البيانية للمعرفة الدلالية بهذا الالتزام على مستوى أعلى من التجريد (بعيدًا عن المصادر) وهو أمر ضروري لربط نسيج البيانات معًا.
العمارة ذات المستويين
من الناحية المفاهيمية ، تتمثل الطريقة الأفضل للتفكير في نسيج البيانات وبنى شبكة البيانات في مستويين من بنية مشتركة. بالنسبة للطبقة الأولى ، فإن شبكة البيانات هي النهج التصاعدي الأقرب لمصادر البيانات. هذا المستوى مسؤول عن توفير البيانات ، التي يتم وصفها ببيانات وصفية غنية وفقًا للمعايير الدلالية لإنتاج منتجات بيانات قابلة لإعادة الاستخدام من مجالات الأعمال الفردية.
الهدف هو جعل هذه الأوصاف المترجمة ذات مغزى وفي متناول الآخرين عبر المؤسسة. تحقق التقنيات الدلالية هذا الهدف من خلال معايير RDF و OWL والتصنيفات ، بحيث يتم فهم مجموعات البيانات بسهولة من قبل الشركة.
نسيج البيانات هو نهج من أعلى لأسفل إلى المستوى الثاني أو العلوي فوق شبكة البيانات. على هذا النحو ، فإنه يدمج أي منتج بيانات عبر المجالات والمواقع ومجموعات البيانات. هذا البناء مناسب لابتكار منتجات بيانات جديدة من خلال دمجها عبر المجالات. على هذا النحو ، يشمل نسيج البيانات جميع مجالات الأعمال مع الاحتفاظ بمعنى الملكية التجارية الضيقة لأصول البيانات هذه. لذلك ، تستفيد المؤسسات من أفضل عناصر كل بنية مجتمعة في واحد.
دور الذكاء الاصطناعي
لقد تم المبالغة في إمكانات الذكاء الاصطناعي لأتمتة تكامل البيانات الضروري الضمني في بنية نسيج البيانات – وتوحيدها مع شبكة البيانات – بشكل كبير.
لتكامل البيانات ، لا تزال وظائف الذكاء الاصطناعي محدودة إلى حد ما. يزعم مؤيدو نسيج البيانات أن هذا البناء يمكنه أتمتة تكامل البيانات عبر البيانات الوصفية ، والتي تشارك عادةً في تكامل البيانات الحصيف. ومع ذلك ، فإن عمليات التكامل اليوم تدور حول البيانات الفعلية بقدر ما تدور حول البيانات الوصفية. من المؤكد أن الذكاء الاصطناعي لديه بعض الفوائد في دمج البيانات لأقمشة البيانات. لكن الحجم والتعقيدات والاختلافات العديدة بين البيانات في عمليات التكامل لا تزال تتطلب جهدًا بشريًا بالإضافة إلى أتمتة الآلة.
هناك استخدام عملي أكثر للذكاء الاصطناعي في أتمتة إنشاء الرسوم البيانية المعرفية التي تصف البيانات للنهج ذي المستويين المذكور لتوحيد شبكات البيانات وبنى نسيج البيانات. هناك العديد من تقنيات الذكاء الاصطناعي لتحديد الاتصالات في مجموعات البيانات وتقديم اقتراحات ذكية عنها لتسريع عدد سكان الرسم البياني المعرفي للمجال. تتضمن أمثلة تقنيات الاستدلال مناهج مثل الاستدلال الدلالي ، حيث يتم دمج عبارات الوصف الذاتي حول البيانات لابتكار بيانات جديدة.
هناك أيضًا مناهج منطقية تتميز بالمنطق الرمزي والاستدلال القائم على OWL. تتضمن تقنيات التعلم غير الخاضعة للإشراف الألمانية وسائل مختلفة لتقليل الأبعاد والتكتل. تتضمن تطبيقات التعلم الخاضعة للإشراف تنبؤات الارتباط ، والتي يمكن تحفيزها بواسطة الشبكات العصبية للرسم البياني. هناك وفرة من الأساليب لحل الكيان لتحديد ما إذا كان الكيان في مجموعة بيانات ما هو نفسه أو مرتبطًا بكيان آخر في مجموعة بيانات أخرى. بشكل متزايد ، تعتمد هذه التقنيات على الذكاء الاصطناعي.
الفوائد: مباشرة ونتيجة طبيعية
ينتج عن اندماج شبكة البيانات وبنى نسيج البيانات في بنية واحدة ثنائية الطبقات مدعومة برسوم بيانية معرفية دلالية مزايا مميزة للمؤسسة. إنه يقلل بشكل كبير من كمية معالجة ETL و ELT المطلوبة لتحويل البيانات.
البيانات ذات العلامات الدلالية الموصوفة جيدًا قابلة لإعادة الاستخدام بطبيعتها ولا تتطلب تحويلًا إضافيًا لإعادة استخدامها. تجعل التقنيات الدلالية البيانات ذاتية الوصف في مصطلحات الأعمال ، لذلك بمجرد أن يقدم خبراء المجال هذه الأوصاف كنموذج ، يمكن إعادة استخدامها إلى ما لا نهاية داخل وعبر المجالات.
التكلفة المنخفضة هي فائدة ملموسة أخرى لهذه المنهجية ونتيجة طبيعية للفائدة الأولى. نظرًا لأن البيانات الدلالية قابلة لإعادة الاستخدام ، فإن المؤسسات تنفق أقل على تنقية البيانات الخام ومناقشة تلك البيانات في النموذج المطلوب. تكاليف رسم الخرائط والتنقية وتطبيع البيانات الخام كبيرة ؛ باستخدام الدلالات ، يمكن إجراء هذه العملية مرة واحدة وجني الفوائد إلى ما لا نهاية – والتي تضيف عند الجمع بين منتجات البيانات عبر المجالات على مستوى نسيج البيانات.
هناك أيضًا مزايا زمنية لتقليل الوقت المستغرق في تحقيق قيمة هذا النهج ، حيث يعني إعداد البيانات وقتًا أقل وصولاً أسرع إلى التحليلات والرؤى وإجراءات العمل الناتجة. هناك أيضًا قدرة عالية على التأكد من العلاقات وإدارتها وربطها بين مجموعات البيانات المتباينة. تضمن هذه الميزة فهمًا أفضل لأهمية البيانات لاكتشاف البيانات واستكشاف البيانات ، مما يعزز التحليلات بشكل كبير والقيمة التي يتم جنيها منها.
علاقة تكافلية
تعمل مفاهيم شبكة البيانات ونسيج البيانات بشكل جيد معًا لتحقيق أهداف مماثلة. يقومون بتوطين المسؤولية عن البيانات لوحدات الأعمال دون أساليب المركزية التقليدية ، وإنشاء منتجات بيانات منسقة وقابلة لإعادة الاستخدام عبر المؤسسة. تتضمن شبكة البيانات نهجًا تصاعديًا لهذه المهمة ، بينما يستخدم نسيج البيانات أسلوبًا من أعلى إلى أسفل.
إن توحيد هذه الأساليب في بنية واحدة يخلق تعايشًا للحصول على أفضل نتيجة – لا سيما عندما يتم تبسيط تطبيقاتها وتعزيز فعاليتها من خلال الطبيعة الغنية ذاتية الوصف لتقنيات الرسم البياني للمعرفة الدلالية.
شون مارتن هو كبير مسؤولي التكنولوجيا في Cambridge Semantics.
صانعي القرار
مرحبًا بك في مجتمع VentureBeat!
DataDecisionMakers هو المكان الذي يمكن للخبراء ، بما في ذلك الأشخاص الفنيون الذين يقومون بعمل البيانات ، مشاركة الأفكار والابتكارات المتعلقة بالبيانات.
إذا كنت تريد أن تقرأ عن الأفكار المتطورة والمعلومات المحدثة ، وأفضل الممارسات ، ومستقبل البيانات وتكنولوجيا البيانات ، انضم إلينا في DataDecisionMakers.
يمكنك حتى التفكير في المساهمة بمقال خاص بك!
قراءة المزيد من DataDecisionMakers
اكتشاف المزيد من موقع شبرون
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.