Jannah Theme License is not validated, Go to the theme options page to validate the license, You need a single license for each domain name.
، مقالات

هل كذب XAI حول معايير Grok 3؟


المناقشات حول معايير الذكاء الاصطناعى – وكيف يتم الإبلاغ عنها من قبل AI Labs – تتسرب إلى الرأي العام.

هذا الأسبوع ، اتهم موظف Openai شركة AI Elon Musk ، XAI ، بنشر النتائج المرتبطة بأحدث طراز AI ، Grok 3. أحد المؤسسين المشاركين في Xai ، Igor Babushkin ، أصر على أن الشركة كانت في اليمين.

الحقيقة تقع في مكان ما بينهما.

في منشور على مدونة XAI ، نشرت الشركة رسمًا بيانيًا يوضح أداء Grok 3 في AIME 2025 ، وهي مجموعة من أسئلة الرياضيات الصعبة من امتحان الرياضيات الدعائي حديث. شكك بعض الخبراء في صحة AIME كمعيار لمنظمة العفو الدولية. ومع ذلك ، يتم استخدام الإصدارات AIME 2025 أو الأقدم من الاختبار بشكل شائع للتحقيق في قدرة الرياضيات في النموذج.

أظهر الرسم البياني لـ Xai نوعين من Grok 3 و Grok 3 Beta Beta و Grok 3 Mini Reasoning ، متغلبًا على أفضل الأداء المتاح في Openai ، O3-Mini-High ، في Aime 2025. لم تتضمن درجة O3-Mini-High’s Aime 2025 في “Cons@64”.

ما هو سلبيات@64 ، قد تسأل؟ حسنًا ، إنه قصير بالنسبة لـ “الإجماع@64” ، ويعطي بشكل أساسي نموذج 64 يحاول الإجابة على كل مشكلة في معيار ويأخذ الإجابات التي تم إنشاؤها بشكل متكرر كإجابات نهائية. كما يمكنك أن تتخيل ، تميل Cons@64 إلى زيادة الدرجات القياسية للموديلات قليلاً ، وحذفها من الرسم البياني قد تجعلها تبدو كما لو أن أحد الطرازات يتجاوز نموذجًا آخر عندما يكون هذا هو الحال في الواقع.

Grok 3 Reasying Beta و Grok 3 Mini Reasoning Scores for Aime 2025 في “@1”-مما يعني أن النتيجة الأولى التي حصلت عليها النماذج في المعيار-تقل عن درجة O3-Mini عالية. يتتبع Grok 3 Beansing Beta أيضًا بشكل كبير خلف طراز O1 الخاص بـ Openai الذي تم تعيينه على الحوسبة “المتوسطة”. ومع ذلك ، فإن Xai تعلن Grok 3 باعتباره “أذكى الذكاء الاصطناعي في العالم”.

جادل Babushkin على X أن Openai قد نشرت مخططات قياسية مضللة بالمثل في الماضي – وإن كانت مخططات تقارن أداء نماذجها الخاصة. وضع حفلة أكثر حيادية في النقاش رسمًا بيانيًا “دقة” أكثر توضح أداء كل طراز تقريبًا في Cons@64:

ولكن كما أشار باحث AI ناثان لامبرت في منشور ، ربما يظل المقياس الأكثر أهمية لغزا: التكلفة الحسابية (والنقدية) التي استغرقتها لكل نموذج لتحقيق أفضل درجة. هذا يوضح فقط لم يعلم معظم معايير الذكاء الاصطناعي قيود النماذج – ونقاط قوتها.




اكتشاف المزيد من موقع شعاع للمعلوماتية

اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى

اكتشاف المزيد من موقع شعاع للمعلوماتية

اشترك الآن للاستمرار في القراءة والحصول على حق الوصول إلى الأرشيف الكامل.

Continue reading