هل كذب XAI حول معايير Grok 3؟

المناقشات حول معايير الذكاء الاصطناعى – وكيف يتم الإبلاغ عنها من قبل AI Labs – تتسرب إلى الرأي العام.
هذا الأسبوع ، موظف Openai المتهم شركة Elon Musk’s AI ، XAI ، لنشر النتائج القياسية المضللة لأحدث طراز AI ، Grok 3. أحد المؤسسين المشاركين في Xai ، Igor Babushkin ، أصر أن الشركة كانت في اليمين.
الحقيقة تقع في مكان ما بينهما.
في انشر على مدونة XAI، نشرت الشركة رسمًا بيانيًا يوضح أداء Grok 3 في AIME 2025 ، وهي مجموعة من أسئلة الرياضيات الصعبة من امتحان الرياضيات الدعوة حديثًا. بعض الخبراء لديهم شكك في صحة Aime كمعيار منظمة العفو الدولية. ومع ذلك ، يتم استخدام الإصدارات AIME 2025 أو الأقدم من الاختبار بشكل شائع للتحقيق في قدرة الرياضيات في النموذج.
أظهر الرسم البياني لـ Xai نوعين من Grok 3 و Grok 3 Beta Beta و Grok 3 Mini Reasoning ، متغلبًا على أفضل الأداء المتاح في Openai ، O3-Mini-High ، في Aime 2025. لم تتضمن درجة O3-Mini-High’s Aime 2025 في “Cons@64”.
ما هو سلبيات@64 ، قد تسأل؟ حسنًا ، إنه قصير بالنسبة لـ “الإجماع@64” ، ويعطي بشكل أساسي نموذج 64 يحاول الإجابة على كل مشكلة في معيار ويأخذ الإجابات التي تم إنشاؤها بشكل متكرر كإجابات نهائية. كما يمكنك أن تتخيل ، تميل Cons@64 إلى زيادة الدرجات القياسية للموديلات قليلاً ، وحذفها من الرسم البياني قد تجعلها تبدو كما لو أن أحد الطرازات يتجاوز نموذجًا آخر عندما يكون هذا هو الحال في الواقع.
Grok 3 Reasying Beta و Grok 3 Mini Reasoning Scores for Aime 2025 في “@1”-مما يعني أن النتيجة الأولى التي حصلت عليها النماذج في المعيار-تقل عن درجة O3-Mini عالية. يتتبع Grok 3 Beansing Beta أيضًا بشكل كبير خلف طراز O1 الخاص بـ Openai الذي تم تعيينه على الحوسبة “المتوسطة”. بعد XAI هو الإعلان Grok 3 باعتبارها “أذكى الذكاء الاصطناعي في العالم”.
Babushkin جادل على x نشرت Openai المخططات القياسية المضللة بالمثل في الماضي – وإن كانت مخططات تقارن أداء نماذجها الخاصة. وضع حفلة أكثر حيادية في النقاش رسمًا بيانيًا “دقة” أكثر توضح أداء كل طراز تقريبًا في Cons@64:
فرحان كيف يرى بعض الناس مؤامرة على أنها هجوم على Openai والبعض الآخر كهجوم على Grok بينما في الواقع هو دعاية Deepseek
(أعتقد في الواقع أن Grok يبدو جيدًا هناك ، ويستحق TTC chicanery من Openai خلف O3-Mini-*عالية*”” 1 ″ “” المزيد من التدقيق.) https://t.co/djqljpcjh8 pic.twitter.com/3wh8foufic– Teortaxes ▶ ️ (Deepseek 推特🐋铁粉 2023 – ∞) (TEORTAXESTEX) 20 فبراير 2025
ولكن كباحث من الذكاء الاصطناعي ناثان لامبرت أشار في منشور، ربما لا يزال المقياس الأكثر أهمية لغزا: التكلفة الحسابية (والنقدية) التي استغرقتها لكل نموذج لتحقيق أفضل درجة. هذا يوضح فقط لم يعلم معظم معايير الذكاء الاصطناعي قيود النماذج – ونقاط قوتها.