تعرف على MAGE ، نظام MIT الموحد لإنشاء الصور والتعرف عليها

تعرف على MAGE ، نظام MIT الموحد لإنشاء الصور والتعرف عليها


انضم إلى كبار المديرين التنفيذيين في سان فرانسيسكو يومي 11 و 12 يوليو ، لمعرفة كيف يدمج القادة استثمارات الذكاء الاصطناعي ويحسنونها لتحقيق النجاح. يتعلم أكثر


في تطور كبير ، أعلن باحثون من مختبر علوم الكمبيوتر والذكاء الاصطناعي (CSAIL) التابع لمعهد ماساتشوستس للتكنولوجيا عن إطار عمل يمكنه التعامل مع مهام التعرف على الصور وإنشاء الصور بدقة عالية. يُطلق على نظام الرؤية الحاسوبية الموحد ، الذي يطلق عليه رسميًا اسم “التشفير التوليدي المقنع” ، أو MAGE ، وعودًا بتطبيقات واسعة النطاق ويمكنه تقليل النفقات العامة لتدريب نظامين منفصلين لتحديد الصور وإنشاء صور جديدة.

>> تابع تغطية الذكاء الاصطناعي التوليدية المستمرة من VentureBeat <<

تأتي الأخبار في وقت تعمل فيه الشركات على استخدام الذكاء الاصطناعي ، ولا سيما التقنيات التوليدية ، لتحسين سير العمل. ومع ذلك ، كما أوضح الباحثون ، لا يزال نظام MIT به بعض العيوب وسيحتاج إلى تحسين في الأشهر المقبلة إذا كان سيتبنى.

أخبر الفريق VentureBeat أنهم يخططون أيضًا لتوسيع قدرات النموذج.

حدث

تحويل 2023

انضم إلينا في سان فرانسيسكو يومي 11 و 12 يوليو ، حيث سيشارك كبار المسؤولين التنفيذيين في كيفية دمج استثمارات الذكاء الاصطناعي وتحسينها لتحقيق النجاح وتجنب المزالق الشائعة.

سجل الان

إذن ، كيف يعمل MAGE؟

اليوم ، يدور بناء أنظمة توليد الصور والتعرف عليها إلى حد كبير حول عمليتين: النمذجة التوليدية الحديثة والتعلم التمثيلي تحت الإشراف الذاتي. في النظام الأول ، يتعلم النظام إنتاج بيانات عالية الأبعاد من مدخلات منخفضة الأبعاد مثل تسميات الفصل أو تضمين النص أو الضوضاء العشوائية. في الأخير ، يتم استخدام صورة عالية الأبعاد كمدخلات لإنشاء دمج منخفض الأبعاد لاكتشاف الميزة أو تصنيفها.

>> لا تفوّت إصدارنا الخاص: بناء الأساس لجودة بيانات العملاء. <<

تتطلب هاتان التقنيتان ، المستخدمة حاليًا بشكل مستقل عن بعضهما البعض ، فهمًا مرئيًا ودلاليًا للبيانات. لذلك قرر الفريق في معهد ماساتشوستس للتكنولوجيا جمعهم معًا في بنية موحدة. MAGE هي النتيجة.

لتطوير النظام ، استخدمت المجموعة نهجًا سابقًا للتدريب يسمى نمذجة الرمز المقنع. قاموا بتحويل أقسام من بيانات الصورة إلى نسخ مجردة ممثلة بالرموز الدلالية. يمثل كل من هذه الرموز رقعة 16 × 16 رمزية للصورة الأصلية ، تعمل مثل قطع أحجية الصور المقطوعة المصغرة.

بمجرد أن تصبح الرموز المميزة جاهزة ، تم إخفاء بعضها بشكل عشوائي وتم تدريب شبكة عصبية للتنبؤ بالرموز المخفية من خلال جمع السياق من الرموز المميزة المحيطة. بهذه الطريقة ، تعلم النظام فهم الأنماط في الصورة (التعرف على الصورة) وكذلك إنشاء أنماط جديدة (توليد الصور).

كتب الباحثون في ورقة بحثية تفصّل النظام: “رؤيتنا الأساسية في هذا العمل هي أن التوليد يُنظر إليه على أنه” إعادة بناء “لصور مقنعة بنسبة 100٪ ، بينما يُنظر إلى التعلم التمثيلي على أنه” ترميز “للصور التي تكون مقنعة بنسبة 0٪”. “تم تدريب النموذج على إعادة البناء على مدى واسع من نسب الإخفاء التي تغطي نسب التقنيع العالية التي تتيح إمكانيات التوليد ، ونسب التقنيع المنخفضة التي تتيح التعلم التمثيلي. يسمح هذا النهج البسيط والفعال للغاية بمزيج سلس من التدريب التوليدي والتعلم التمثيلي في نفس الإطار: نفس البنية ، وخطة التدريب ، ووظيفة الخسارة. ”

بالإضافة إلى إنتاج الصور من البداية ، يدعم النظام إنشاء الصورة الشرطية ، حيث يمكن للمستخدمين تحديد معايير للصور وستقوم الأداة بطهي الصورة المناسبة.

قال Tianhong Li ، أحد الباحثين وراء النظام ، لـ VentureBeat: “يمكن للمستخدم إدخال صورة كاملة ويمكن للنظام فهم الصورة والتعرف عليها ، وإخراج فئة الصورة”. “في سيناريوهات أخرى ، يمكن للمستخدم إدخال صورة مع اقتصاص جزئي ، ويمكن للنظام استعادة الصورة التي تم اقتصاصها. يمكنهم أيضًا أن يطلبوا من النظام إنشاء صورة عشوائية أو إنشاء صورة معينة لفئة معينة ، مثل سمكة أو كلب “.

إمكانية للعديد من التطبيقات

عندما تم تدريب النموذج مسبقًا على البيانات من قاعدة بيانات ImageNet للصور ، والتي تتكون من 1.3 مليون صورة ، حصل النموذج على درجة مسافة بداية جديدة (تُستخدم لتقييم جودة الصور) تبلغ 9.1 ، متفوقًا على النماذج السابقة. للتعرف عليها ، حققت نسبة دقة تصل إلى 80.9٪ في الفحص الخطي و 71.9٪ من معدل دقة 10 لقطات عندما كان لديها 10 أمثلة فقط معنونة من كل فئة.

قال لي: “يمكن لطريقتنا أن ترقى بشكل طبيعي إلى أي مجموعة بيانات صور غير مسماة” ، مشيرًا إلى أن قدرات فهم الصورة للنموذج يمكن أن تكون مفيدة في السيناريوهات التي تتوفر فيها بيانات محددة ذات علامات ، كما هو الحال في الصناعات المتخصصة أو التقنيات الناشئة.

وبالمثل ، قال ، يمكن أن يساعد جانب الجيل من النموذج في صناعات مثل تحرير الصور والتأثيرات المرئية وما بعد الإنتاج مع قدرته على إزالة العناصر من الصورة مع الحفاظ على المظهر الواقعي ، أو استبدال فئة معينة عنصر مع عنصر آخر تم إنشاؤه.

“لديها [long] كان حلما لتحقيق توليد الصور والتعرف على الصور في نظام واحد. MAGE هو ملف [result of] قال Huisheng Wang ، كبير مهندسي البرمجيات للأبحاث وذكاء الآلة في Google ، الذي شارك في مشروع MAGE ، إن الأبحاث الرائدة التي تسخر بنجاح التآزر بين هاتين المهمتين وتحقق أحدث ما توصلت إليه التكنولوجيا في نظام واحد.

وأضاف: “هذا النظام المبتكر له تطبيقات واسعة النطاق ، ولديه القدرة على إلهام العديد من الأعمال المستقبلية في مجال رؤية الكمبيوتر”.

المزيد من العمل المطلوب

للمضي قدمًا ، يخطط الفريق لتبسيط نظام MAGE ، وخاصة جزء تحويل الرموز من العملية. حاليًا ، عندما يتم تحويل بيانات الصورة إلى رموز مميزة ، يتم فقد بعض المعلومات. يخطط لي وفريقه لتغيير ذلك من خلال طرق أخرى للضغط.

علاوة على ذلك ، قال لي إنهم يخططون أيضًا لتوسيع نطاق MAGE في مجموعات بيانات صور حقيقية وواسعة النطاق غير مسماة ، وتطبيقها على مهام متعددة الوسائط ، مثل إنشاء صورة إلى نص وتحويل النص إلى صورة.

مهمة VentureBeat هو أن تكون ساحة المدينة الرقمية لصناع القرار التقنيين لاكتساب المعرفة حول تكنولوجيا المؤسسات التحويلية والمعاملات. اكتشف إحاطاتنا.


اكتشاف المزيد من موقع شبرون

اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.

Comments

No comments yet. Why don’t you start the discussion?

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *