معايير META لنماذج الذكاء الاصطناعى الجديدة مضللة بعض الشيء

معايير META لنماذج الذكاء الاصطناعى الجديدة مضللة بعض الشيء


أحد طرازات AI الرائدة الجديدة التي تم إصدارها يوم السبت ، مافريك ، يحتل المرتبة الثانية على LM Arena، وهو اختبار يحتوي على المقيمين البشريين يقارن مخرجات النماذج واختيار ما يفضلونه. ولكن يبدو أن إصدار Maverick الذي تم نشره Meta في LM Arena يختلف عن الإصدار المتاح على نطاق واسع للمطورين.

مثل عديد منظمة العفو الدولية الباحثون أشار Meta في إعلانه ، في إعلانه إلى أن The Maverick on LM Arena هو “إصدار دردشة تجريبية”. مخطط على موقع لاما الرسمي، في هذه الأثناء ، كشفت أن اختبار LM Arena الخاص بـ Meta أجري باستخدام “Llama 4 Maverick Optimized for Enalvality.”

كما كتبنا من قبل ، لأسباب مختلفة ، لم تكن LM Arena هي المقياس الأكثر موثوقية لأداء نموذج الذكاء الاصطناعي. لكن شركات الذكاء الاصطناعى عمومًا لم تخصص أو تم ضبط نماذجها بشكل أفضل لتسجيلها بشكل أفضل على LM Arena-أو لم تعترف بذلك ، على الأقل.

إن المشكلة في تصرف نموذج إلى معيار ، وحجبه ، ثم إطلاق متغير “الفانيليا” من نفس النموذج هو أنه يجعل من الصعب على المطورين التنبؤ بالضبط مدى أداء النموذج في سياقات معينة. إنه أيضًا مضلل. من الناحية المثالية ، توفر المعايير – غير كافية بشكل محزن كما هي – لقطة من نقاط القوة والضعف في نموذج واحد عبر مجموعة من المهام.

في الواقع ، الباحثون في X لديهم لوحظ ستارك الاختلافات في السلوك من Maverick القابل للتنزيل مقارنة مع النموذج المستضاف على LM Arena. يبدو أن إصدار LM Arena يستخدم الكثير من الرموز التعبيرية ، ويعطي إجابات طويلة بشكل لا يصدق.

لقد تواصلنا مع Meta و Chatbot Arena ، المنظمة التي تحافظ على LM Arena ، للتعليق.





المصدر


اكتشاف المزيد من موقع شبرون

اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.

Comments

No comments yet. Why don’t you start the discussion?

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *