تشير المنظمة Openai بشكل متكرر إلى تحقيق قدرات نماذج AI وتقييمها من أجل السلامة ، Metr ، إلى أنه لم يتم منح الكثير من الوقت لاختبار أحد الإصدارات الجديدة القادرة على الشركة ، O3.
في منشور مدونة نُشر يوم الأربعاء ، كتب Metr أن واحدًا من المعيار الجماعي الأحمر لـ O3 تم “إجراءه في وقت قصير نسبيًا” مقارنةً بقياس المنظمة لنموذج Openai الرائد السابق ، O1. هذا أمر مهم ، كما يقولون ، لأن المزيد من وقت الاختبار يمكن أن يؤدي إلى نتائج أكثر شمولاً.
كتب Metr في منشور مدونة: “تم إجراء هذا التقييم في وقت قصير نسبيًا ، وقمنا فقط باختبار النموذج مع سقالات الوكيل البسيطة”. “نتوقع أداء أعلى [on benchmarks] من الممكن مع المزيد من جهود الاستنباط. “
تشير التقارير الحديثة إلى أن Openai ، التي مدفوعة بالضغط التنافسي ، تسرع في تقييمات مستقلة. وفقًا لصحيفة فاينانشال تايمز ، أعطى Openai بعض المختبرين أقل من أسبوع لفحص السلامة لإصدار رئيسي قادم.
في العبارات ، عارض Openai فكرة أنه يتنازل عن السلامة.
يقول Metr إنه استنادًا إلى المعلومات التي تمكنت من جمعها في الوقت الذي كانت فيه ، فإن O3 لديها “ميل عالٍ” لاختبارات “الغش” أو “الاختراق” بطرق متطورة من أجل زيادة درجتها – حتى عندما يفهم النموذج بوضوح سلوكه غير محدد مع نوايا المستخدم (و Openai). تعتقد المنظمة أنه من الممكن أن تشارك O3 في أنواع أخرى من السلوك العدائي أو “الخبيث” أيضًا – بغض النظر عن مطالبات النموذج بأنها “آمنة حسب التصميم” ، أو لا يوجد أي نوايا خاصة بها.
“على الرغم من أننا لا نعتقد أن هذا أمر محتمل بشكل خاص ، يبدو أنه من المهم الإشارة إلى أن إعداد التقييم هذا لن يجذب هذا النوع من المخاطر” ، كتب متر في منشوره. “بشكل عام ، نعتقد أن اختبار قدرة ما قبل النشر ليس استراتيجية كافية لإدارة المخاطر في حد ذاتها ، ونحن حاليًا نؤسس أشكالًا إضافية من التقييمات.”
لاحظ آخر من شركاء تقييم الطرف الثالث من Openai ، Apollo Research ، سلوكًا خادعًا من O3 ونموذج Openai جديد ، O4-Mini. في أحد الاختبارات ، زادت النماذج ، التي أعطيت 100 ساعة معتمدة للحوسبة لتدريب الذكاء الاصطناعى وطلبت عدم تعديل الحصص ، وزيادة الحد إلى 500 ساعة معتمدة – وكذب عليها. في اختبار آخر ، طلب من الوعد بعدم استخدام أداة معينة ، استخدمت النماذج الأداة على أي حال عندما أثبتت أنها مفيدة في إكمال المهمة.
في تقرير السلامة الخاص به لـ O3 و O4-MINI ، أقر Openai بأن النماذج قد تتسبب في “أضرار أصغر في العالم” بدون بروتوكولات المراقبة المناسبة المعمول بها.
وكتبت الشركة: “على الرغم من عدم ضرر نسبيًا ، من المهم للمستخدمين العاديين أن يكونوا على دراية بهذه التناقضات بين عبارات وإجراءات النماذج”. “[For example, the model may mislead] عن [a] خطأ يؤدي إلى رمز معيب. قد يتم تقييم ذلك بشكل أكبر من خلال تقييم آثار التفكير الداخلي “.
اكتشاف المزيد من موقع شعاع للمعلوماتية
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.