هل كذب XAI حول معايير Grok 3؟

المناقشات حول معايير الذكاء الاصطناعى – وكيف يتم الإبلاغ عنها من قبل AI Labs – تتسرب إلى الرأي العام.

هذا الأسبوع ، اتهم موظف Openai شركة AI Elon Musk ، XAI ، بنشر النتائج المرتبطة بأحدث طراز AI ، Grok 3. أحد المؤسسين المشاركين في Xai ، Igor Babushkin ، أصر على أن الشركة كانت في اليمين.

الحقيقة تقع في مكان ما بينهما.

في منشور على مدونة XAI ، نشرت الشركة رسمًا بيانيًا يوضح أداء Grok 3 في AIME 2025 ، وهي مجموعة من أسئلة الرياضيات الصعبة من امتحان الرياضيات الدعائي حديث. شكك بعض الخبراء في صحة AIME كمعيار لمنظمة العفو الدولية. ومع ذلك ، يتم استخدام الإصدارات AIME 2025 أو الأقدم من الاختبار بشكل شائع للتحقيق في قدرة الرياضيات في النموذج.

أظهر الرسم البياني لـ Xai نوعين من Grok 3 و Grok 3 Beta Beta و Grok 3 Mini Reasoning ، متغلبًا على أفضل الأداء المتاح في Openai ، O3-Mini-High ، في Aime 2025. لم تتضمن درجة O3-Mini-High’s Aime 2025 في “Cons@64”.

ما هو سلبيات@64 ، قد تسأل؟ حسنًا ، إنه قصير بالنسبة لـ “الإجماع@64” ، ويعطي بشكل أساسي نموذج 64 يحاول الإجابة على كل مشكلة في معيار ويأخذ الإجابات التي تم إنشاؤها بشكل متكرر كإجابات نهائية. كما يمكنك أن تتخيل ، تميل Cons@64 إلى زيادة الدرجات القياسية للموديلات قليلاً ، وحذفها من الرسم البياني قد تجعلها تبدو كما لو أن أحد الطرازات يتجاوز نموذجًا آخر عندما يكون هذا هو الحال في الواقع.

Grok 3 Reasying Beta و Grok 3 Mini Reasoning Scores for Aime 2025 في “@1”-مما يعني أن النتيجة الأولى التي حصلت عليها النماذج في المعيار-تقل عن درجة O3-Mini عالية. يتتبع Grok 3 Beansing Beta أيضًا بشكل كبير خلف طراز O1 الخاص بـ Openai الذي تم تعيينه على الحوسبة “المتوسطة”. ومع ذلك ، فإن Xai تعلن Grok 3 باعتباره “أذكى الذكاء الاصطناعي في العالم”.

جادل Babushkin على X أن Openai قد نشرت مخططات قياسية مضللة بالمثل في الماضي – وإن كانت مخططات تقارن أداء نماذجها الخاصة. وضع حفلة أكثر حيادية في النقاش رسمًا بيانيًا “دقة” أكثر توضح أداء كل طراز تقريبًا في Cons@64:

فرحان كيف يرى بعض الناس مؤامرة على أنها هجوم على Openai والبعض الآخر كهجوم على Grok بينما في الواقع هو دعاية Deepseek
(أعتقد في الواقع أن Grok يبدو جيدًا هناك ، ويستحق TTC chicanery من Openai خلف O3-Mini-*High*-pass@”” “1 ″” “المزيد من التدقيق.) https://t.co/djqljpcjh8 pic.twitter.com/3wh8foufic

– Teortaxes ▶ ️ (Deepseek 推特🐋铁粉 2023 – ∞) (TEORTAXESTEX) 20 فبراير 2025

ولكن كما أشار باحث AI ناثان لامبرت في منشور ، ربما يظل المقياس الأكثر أهمية لغزا: التكلفة الحسابية (والنقدية) التي استغرقتها لكل نموذج لتحقيق أفضل درجة. هذا يوضح فقط لم يعلم معظم معايير الذكاء الاصطناعي قيود النماذج – ونقاط قوتها.