ما هو الذكاء الاصطناعي (AI) العنقودية؟ كيف تحدد الأنماط
تحقق من جميع الجلسات عند الطلب من قمة الأمن الذكي هنا.
تجميع الذكاء الاصطناعي هو عملية التعلم الآلي (ML) لتنظيم البيانات في مجموعات فرعية ذات سمات أو عناصر متشابهة. تميل خوارزميات التجميع إلى العمل بشكل جيد في البيئات التي لا تحتاج فيها الإجابة إلى الكمال ، بل يجب أن تكون متشابهة أو قريبة لتكون مطابقة مقبولة. يمكن أن تكون مجموعات الذكاء الاصطناعي فعالة بشكل خاص في تحديد أنماط التعلم غير الخاضع للإشراف. بعض التطبيقات الشائعة في الموارد البشرية وتحليل البيانات وأنظمة التوصية والعلوم الاجتماعية.
يستخدم علماء البيانات والإحصائيون وعلماء الذكاء الاصطناعي خوارزميات التجميع للبحث عن إجابات قريبة من الإجابات الأخرى. يستخدمون أولاً مجموعة بيانات تدريبية لتحديد المشكلة ثم يبحثون عن حلول محتملة مماثلة لتلك التي تم إنشاؤها باستخدام بيانات التدريب.
يتمثل أحد التحديات في تحديد “القرب” ، لأن الإجابة المرغوبة عادةً ما يتم إنشاؤها باستخدام بيانات التدريب. عندما تحتوي البيانات على أبعاد متعددة ، يمكن لعلماء البيانات أيضًا توجيه الخوارزمية عن طريق تعيين أوزان لأعمدة البيانات المختلفة في المعادلة المستخدمة لتحديد التقارب. ليس من غير المألوف العمل مع العديد من الوظائف المختلفة التي تحدد التقارب.
عندما يتم تحديد وظيفة التقارب ، والتي تسمى أيضًا مقياس التشابه أو قياس المسافة ، فإن الكثير من العمل يخزن البيانات بطريقة يمكن البحث عنها بسرعة. يقوم بعض مصممي قواعد البيانات بإنشاء طبقات خاصة لتبسيط هذا البحث. جزء رئيسي من العديد من الخوارزميات هو قياس المسافة التي تحدد مدى تباعد نقطتي بيانات.
حدث
قمة الأمن الذكي عند الطلب
تعرف على الدور الحاسم للذكاء الاصطناعي وتعلم الآلة في الأمن السيبراني ودراسات الحالة الخاصة بالصناعة. شاهد الجلسات عند الطلب اليوم.
مشاهدة هنا
نهج آخر ينطوي على قلب المشكلة رأسًا على عقب والبحث عمداً عن أسوأ تطابق ممكن. يناسب هذا مشكلات مثل اكتشاف الأخطاء في تطبيقات الأمان ، حيث يكون الهدف هو تحديد عناصر البيانات التي لا تتناسب مع العناصر الأخرى.
ما هي بعض الأمثلة على خوارزميات التجميع؟
أنشأ العلماء وعلماء الرياضيات خوارزميات مختلفة لاكتشاف أنواع مختلفة من المجموعات. يعد اختيار الحل الصحيح لمشكلة معينة تحديًا شائعًا.
الخوارزميات ليست دائما نهائية. قد يستخدم العلماء طرقًا تندرج في تصنيف واحد فقط ، أو قد يستخدمون خوارزميات هجينة تستخدم تقنيات من فئات متعددة.
تشمل فئات خوارزميات التجميع ما يلي:
- تصاعدي: تبدأ هذه الخوارزميات ، المعروفة أيضًا باسم التجميعية أو الهرمية ، بإقران كل عنصر من عناصر البيانات مع أقرب جار له. ثم يتم إقران الأزواج أنفسهم. تنمو المجموعات وتستمر الخوارزمية حتى الوصول إلى عتبة عدد المجموعات أو المسافة بينها.
- خلافي: هذه الخوارزميات تشبه الخوارزميات التصاعدية أو التكتلية ، لكنها تبدأ بكل النقاط في مجموعة واحدة ثم تبحث عن طريقة لتقسيمها إلى مجموعتين أصغر. هذا يعني غالبًا البحث عن مستوى أو وظيفة أخرى من شأنها تقسيم الكتلة بشكل نظيف إلى أجزاء منفصلة.
- K- الوسائل: هذا النهج الشعبي يبحث عن ك مجموعات مختلفة عن طريق تخصيص النقاط عشوائيًا لها أولاً ك مجموعات مختلفة. يتم حساب متوسط كل عنقود ثم يتم فحص كل نقطة لمعرفة ما إذا كانت الأقرب إلى متوسط مجموعتها. إذا لم يكن كذلك ، يتم نقله إلى آخر. يعاد حساب الوسائل وتتقارب النتائج بعد عدة تكرارات.
- K- ميدويدات: هذا مشابه للوسيلة k ، ولكن يتم حساب المركز باستخدام خوارزمية وسيطة.
- أجعد: يمكن أن تكون كل نقطة عضوًا في مجموعات متعددة يتم حسابها باستخدام أي نوع من الخوارزميات. يمكن أن يكون هذا مفيدًا عندما تكون بعض النقاط بعيدة بشكل متساوٍ عن كل مركز.
- جريد: تبدأ الخوارزميات بشبكة محددة مسبقًا من قبل العلماء لتقسيم مساحة البيانات إلى أجزاء. يتم تعيين النقاط إلى المجموعات بناءً على كتلة الشبكة التي تناسبها.
- لوح: يتم أولاً ضغط النقاط أو تحويلها بوظيفة تسمى الموجة. ثم يتم تطبيق خوارزمية التجميع باستخدام النسخة المضغوطة أو المحولة من البيانات ، وليس النسخة الأصلية.
ملاحظة: غالبًا ما تستخدم العديد من شركات قواعد البيانات كلمة “clustering” بطريقة مختلفة. يمكن استخدام الكلمة أيضًا لوصف مجموعة من الأجهزة التي تعمل معًا لتخزين البيانات والإجابة على الاستفسارات. في هذا السياق ، تتخذ خوارزميات التجميع قرارات بشأن الأجهزة التي ستتعامل مع عبء العمل. لجعل الأمور أكثر إرباكًا ، ستطبق أنظمة البيانات هذه في بعض الأحيان أيضًا خوارزميات تجميع الذكاء الاصطناعي لتصنيف عناصر البيانات.
كيف يتم استخدام خوارزميات التجميع في تطبيقات محددة؟
يتم نشر خوارزميات التجميع كجزء من مجموعة واسعة من التقنيات. يعتمد علماء البيانات على الخوارزميات للمساعدة في التصنيف والفرز.
على سبيل المثال ، يمكن أن يكون عدد كبير من التطبيقات للعمل مع الأشخاص أكثر نجاحًا باستخدام خوارزميات تجميع أفضل. قد ترغب المدارس في وضع الطلاب في أقسام الفصل بناءً على مواهبهم وقدراتهم. ستضع خوارزميات التجميع الطلاب الذين لديهم اهتمامات واحتياجات متشابهة معًا.
ترغب بعض الشركات في فصل عملائها المحتملين إلى فئات مختلفة حتى يتمكنوا من تقديم خدمة أكثر ملاءمة للعملاء. يمكن تقديم مساعدة مكثفة للمشترين الجدد حتى يتمكنوا من فهم المنتجات والخيارات. يمكن اصطحاب العملاء المتمرسين على الفور إلى العروض ، وربما يتم إعطاؤهم أسعارًا خاصة تناسب المشترين المماثلين.
هناك العديد من الأمثلة الأخرى من مجموعة متنوعة من الصناعات ، مثل التصنيع والبنوك والشحن. تعتمد جميعها على الخوارزميات لفصل عبء العمل إلى مجموعات فرعية أصغر يمكنها الحصول على معاملة مماثلة. كل هذه الخيارات تعتمد بشكل كبير على جمع البيانات.
كيف تحدد مقاييس المسافة خوارزميات التجميع؟ إذا تم تحديد الكتلة بالمسافات بين عناصر البيانات ، فإن قياس المسافة يعد جزءًا أساسيًا من العملية. تعتمد العديد من الخوارزميات على طرق قياسية لحساب المسافة ، لكن بعضها يعتمد على صيغ مختلفة بمزايا مختلفة.
يجد الكثيرون فكرة “المسافة” في حد ذاتها مربكة. نستخدم هذا المصطلح في كثير من الأحيان لقياس المسافة التي يجب أن نسافر بها في غرفة أو في جميع أنحاء العالم لدرجة أنه قد يكون من الغريب اعتبار نقطتي بيانات – مثل وصف تفضيلات المستخدم للآيس كريم أو لون الطلاء – مفصولة بأي مسافة. لكن الكلمة هي طريقة طبيعية لوصف رقم يقيس مدى قرب العناصر من بعضها البعض.
يعتمد العلماء وعلماء الرياضيات بشكل عام على الصيغ التي ترضي ما يسمونه “عدم مساواة المثلث”. أي أن المسافة بين النقطتين A و B بالإضافة إلى المسافة بين B و C أكبر من أو تساوي المسافة بين A و C. عندما تضمن الصيغة ذلك ، تكتسب العملية مزيدًا من الاتساق. يعتمد البعض أيضًا على تعريفات أكثر صرامة مثل “القياسات الفائقة” التي تقدم ضمانات أكثر تعقيدًا. لا تحتاج خوارزميات التجميع ، بالمعنى الدقيق للكلمة ، إلى الإصرار على هذه القاعدة لأن أي صيغة تُرجع رقمًا قد تفعل ذلك ، لكن النتائج أفضل بشكل عام.
كيف تقترب الشركات الكبرى من تجميع الذكاء الاصطناعي؟
تشمل خدمات الإحصاء وعلوم البيانات والذكاء الاصطناعي التي يقدمها بائعو التكنولوجيا الرائدون العديد من خوارزميات التجميع الأكثر شيوعًا. يتم تنفيذ الخوارزميات باللغات التي تشكل أساس العديد من هذه الأنظمة الأساسية ، والتي غالبًا ما تكون Python. يشمل البائعون:
- SageMaker: يدعم حل أمازون الجاهز لبناء نماذج الذكاء الاصطناعي عددًا من الأساليب ، مثل K-mean clustering. يمكن اختبارها في أجهزة الكمبيوتر المحمولة ونشرها بعد أن يقوم البرنامج ببناء النموذج.
- جوجل يتضمن مجموعة متنوعة من خوارزميات التجميع التي يمكن نشرها ، بما في ذلك الخوارزميات القائمة على الكثافة والقائمة على النقطه الوسطى والخوارزميات الهرمية. يوفر Colaboratory الخاص بهم فرصة جيدة لاستكشاف الإمكانات قبل نشر الخوارزمية.
- أدوات Microsoft Azure، مثل مصمم التعلم الآلي ، يقدم جميع خوارزميات المجموعات الرئيسية في شكل مفتوح للتجربة. تهدف أنظمتها إلى التعامل مع العديد من تفاصيل التكوين لبناء خط أنابيب يحول البيانات إلى نماذج.
- وحي تقدم أيضًا تقنية التجميع في جميع تطبيقات الذكاء الاصطناعي وعلوم البيانات. قامت أيضًا ببناء خوارزميات في قاعدة البيانات الرئيسية الخاصة بها بحيث يمكن بناء المجموعات داخل تخزين البيانات دون تصديرها.
كيف يتعامل المتنافسون والشركات الناشئة مع أنظمة الذكاء الاصطناعي العنقودية؟
يتحدى متخصصو البيانات المعتمدون ومجموعة كبيرة من الشركات الناشئة البائعين الرئيسيين من خلال تقديم خوارزميات التجميع كجزء من حزم تحليل البيانات وأدوات الذكاء الاصطناعي الأوسع.
تعد Teradata و Snowflake و Databricks شركات رائدة متخصصة تركز على مساعدة الشركات في إدارة التدفقات التي لا هوادة فيها في كثير من الأحيان من البيانات من خلال بناء بحيرات البيانات أو مستودعات البيانات. تدعم أدوات التعلم الآلي الخاصة بهم بعض خوارزميات التجميع القياسية بحيث يمكن لمحللي البيانات البدء في أعمال التصنيف بمجرد دخول البيانات إلى النظام.
تكتسب الشركات الناشئة مثل الشركة الصينية Zilliz ، بقاعدة بيانات المتجهات مفتوحة المصدر Milvus ، و Pinecone ، مع قاعدة بيانات المتجهات SaaS الخاصة بها ، زخمًا كطرق فعالة للبحث عن التطابقات التي يمكن أن تكون مفيدة جدًا في تجميع التطبيقات.
يقوم البعض أيضًا بتجميع الخوارزميات مع الأدوات التي تركز على قطاعات عمودية معينة. يقومون بضبط النماذج والخوارزميات مسبقًا للعمل بشكل جيد مع نوع المشاكل الشائعة في هذا المقطع. Zest.ai و Affirm مثالان على الشركات الناشئة التي تبني نماذج لتوجيه الإقراض. إنهم لا يبيعون الخوارزميات بشكل مباشر ولكنهم يعتمدون على قرارات الخوارزميات لتوجيه منتجاتهم.
يستخدم عدد من الشركات خوارزميات التجميع لتقسيم عملائها وتقديم حلول أكثر مباشرة وشخصية. You.com هي شركة محركات بحث تعتمد على خوارزميات مخصصة لتزويد المستخدمين بتوصيات ونتائج بحث مخصصة. يهدف Observe AI إلى تحسين مراكز الاتصال من خلال مساعدة الشركات على التعرف على الفرص في تقديم خيارات أكثر تخصيصًا.
هل هناك أي شيء لا تستطيع مجموعات الذكاء الاصطناعي فعله؟
كما هو الحال مع جميع أنواع الذكاء الاصطناعي ، يعتمد نجاح خوارزميات التجميع غالبًا على جودة البيانات المستخدمة وملاءمتها. إذا أسفرت الأرقام عن مجموعات ضيقة ذات فجوات كبيرة بينها ، فستجدها خوارزمية التجميع وتستخدمها لتصنيف البيانات الجديدة بنجاح نسبي.
تحدث المشكلات عندما لا تكون هناك مجموعات ضيقة ، أو ينتهي الأمر بعناصر البيانات في فجوة ما حيث تكون على مسافة متساوية نسبيًا بين المجموعات. غالبًا ما تكون الحلول غير مرضية لأنه لا توجد طريقة سهلة لاختيار مجموعة على أخرى. قد يكون المرء أقرب قليلاً وفقًا لمقياس المسافة ، ولكن قد لا يكون هذا هو الإجابة التي يريدها الناس.
في كثير من الحالات ، لا تكون الخوارزميات ذكية أو مرنة بما يكفي لقبول إجابة جزئية أو واحدة تختار تصنيفات متعددة. في حين أن هناك العديد من الأمثلة الواقعية لأشخاص أو أشياء لا يمكن تصنيفها بسهولة ، غالبًا ما تحتوي خوارزميات الكمبيوتر على حقل واحد يمكنه قبول إجابة واحدة فقط.
ومع ذلك ، تظهر أكبر المشكلات عندما تكون البيانات منتشرة للغاية ولا توجد مجموعات محددة بوضوح. قد تستمر الخوارزميات في العمل وتوليد النتائج ، لكن الإجابات ستبدو عشوائية وستفتقر النتائج إلى التماسك.
في بعض الأحيان يكون من الممكن تحسين المجموعات أو جعلها أكثر تميزًا عن طريق ضبط مقياس المسافة. قد تؤدي إضافة أوزان مختلفة لبعض الحقول أو استخدام صيغة مختلفة إلى التأكيد على بعض أجزاء البيانات بما يكفي لجعل المجموعات أكثر تحديدًا. ولكن إذا كانت هذه الفروق مصطنعة ، فقد لا يكون المستخدمون راضين عن النتائج.
مهمة VentureBeat هو أن تكون ساحة المدينة الرقمية لصناع القرار التقنيين لاكتساب المعرفة حول تكنولوجيا المؤسسات التحويلية والمعاملات. اكتشف إحاطاتنا.