معايير META لنماذج الذكاء الاصطناعى الجديدة مضللة بعض الشيء

أحد طرازات AI الرائدة الجديدة التي تم إصدارها يوم السبت ، مافريك ، يحتل المرتبة الثانية على LM Arena، وهو اختبار يحتوي على المقيمين البشريين يقارن مخرجات النماذج واختيار ما يفضلونه. ولكن يبدو أن إصدار Maverick الذي تم نشره Meta في LM Arena يختلف عن الإصدار المتاح على نطاق واسع للمطورين.

مثل عديد منظمة العفو الدولية الباحثون أشار Meta في إعلانه ، في إعلانه إلى أن The Maverick on LM Arena هو “إصدار دردشة تجريبية”. مخطط على موقع لاما الرسمي، في هذه الأثناء ، كشفت أن اختبار LM Arena الخاص بـ Meta أجري باستخدام “Llama 4 Maverick Optimized for Enalvality.”

كما كتبنا من قبل ، لأسباب مختلفة ، لم تكن LM Arena هي المقياس الأكثر موثوقية لأداء نموذج الذكاء الاصطناعي. لكن شركات الذكاء الاصطناعى عمومًا لم تخصص أو تم ضبط نماذجها بشكل أفضل لتسجيلها بشكل أفضل على LM Arena-أو لم تعترف بذلك ، على الأقل.

إن المشكلة في تصرف نموذج إلى معيار ، وحجبه ، ثم إطلاق متغير “الفانيليا” من نفس النموذج هو أنه يجعل من الصعب على المطورين التنبؤ بالضبط مدى أداء النموذج في سياقات معينة. إنه أيضًا مضلل. من الناحية المثالية ، توفر المعايير – غير كافية بشكل محزن كما هي – لقطة من نقاط القوة والضعف في نموذج واحد عبر مجموعة من المهام.

في الواقع ، الباحثون في X لديهم لوحظ ستارك الاختلافات في السلوك من Maverick القابل للتنزيل مقارنة مع النموذج المستضاف على LM Arena. يبدو أن إصدار LM Arena يستخدم الكثير من الرموز التعبيرية ، ويعطي إجابات طويلة بشكل لا يصدق.

حسنًا ، llama 4 هو def a lo lo lo lo lo loot ، ما هي مدينة yap هذه pic.twitter.com/y3gvhbvz65

– ناثان لامبرت (ناتولامبرت) 6 أبريل 2025

لسبب ما ، يستخدم نموذج Llama 4 في Arena الكثير من الرموز التعبيرية

معا. منظمة العفو الدولية ، يبدو أفضل: pic.twitter.com/f74odx4ztt

– Notes Tech Dev (TechDevNotes) 6 أبريل 2025

لقد تواصلنا مع Meta و Chatbot Arena ، المنظمة التي تحافظ على LM Arena ، للتعليق.

المصدر

معايير META لنماذج الذكاء الاصطناعى الجديدة مضللة بعض الشيء

Comments

اترك تعليقاً إلغاء الرد