يستخدم الناس Super Mario لقياس الذكاء الاصطناعي الآن

يعتقد أن بوكيمون كان معيارًا صعبًا لمنظمة العفو الدولية؟ تجادل مجموعة من الباحثين بأن Super Mario Bros. أكثر صرامة.

ألقى Hao AI Lab ، وهو أبحاث في جامعة كاليفورنيا سان دييغو ، يوم الجمعة من الذكاء الاصطناعي في ألعاب Super Mario Bros. قام كلود 3.7 الأنثروبريز بأفضل أفضل ، يليه كلود 3.5. كافح Gemini 1.5 Pro و Openai’s GPT-4O.

لم يكن نفس الإصدار من Super Mario Bros. كإصدار عام 1985 الأصلي ، ليكون واضحًا. ركضت اللعبة في محاكي ودمجت مع إطار عمل ، Gamingagent ، لإعطاء AIS السيطرة على ماريو.

ائتمانات الصورة:مختبر هاو

تغذي GamingAgent ، الذي طوره HAO داخل الشركة ، التعليمات الأساسية لمنظمة العفو الدولية ، مثل “إذا كانت عقبة أو عدو قريبة ، تحرك/قفزة يسارًا لتفادي” ولقطات في اللعبة. ثم أنشأت الذكاء الاصطناعي مدخلات في شكل رمز بيثون للتحكم في ماريو.

ومع ذلك ، يقول هاو إن اللعبة أجبرت كل نموذج على “تعلم” التخطيط للمناورة المعقدة وتطوير استراتيجيات اللعب. ومن المثير للاهتمام ، أن المختبر وجد أن نماذج التفكير مثل Openai’s O1 ، والتي “تفكر” من خلال المشكلات خطوة بخطوة للوصول إلى الحلول ، كانت أداء أسوأ من النماذج “غير المعدنية” ، على الرغم من أنها أقوى عمومًا في معظم المعايير.

أحد الأسباب الرئيسية التي تواجهها نماذج التفكير تواجه مشكلة في لعب ألعاب في الوقت الفعلي مثل هذا هو أنها تستغرق بعض الوقت-ثوانٍ ، عادة-لاتخاذ قرار بشأن الإجراءات ، وفقًا للباحثين. في Super Mario Bros. ، التوقيت هو كل شيء. يمكن أن تعني الثانية الفرق بين القفزة التي تم تطهيرها بأمان وتراجع حتى موتك.

تم استخدام الألعاب لقياس الذكاء الاصطناعي لعقود. لكن بعض الخبراء شككوا في حكمة رسم الاتصالات بين مهارات الألعاب في الذكاء الاصطناعى والتقدم التكنولوجي. على عكس العالم الحقيقي ، تميل الألعاب إلى أن تكون مجردة وبسيطة نسبيًا ، وتوفر كمية غير محدودة نظريًا لتدريب الذكاء الاصطناعي.

تشير معايير الألعاب المبهجة الأخيرة إلى ما يسمى أندريج كارباشي ، وهو عالم أبحاث وعضو مؤسس في Openai ، “أزمة التقييم”.

“أنا لا أعرف حقًا ماذا [AI] كتب في منشور على X.

على الأقل يمكننا مشاهدة منظمة العفو الدولية يلعب ماريو.