هل يمكن لفحص سلامة أكياس الرمل باستخدام الذكاء الاصطناعي تخريب المستخدمين؟ نعم، ولكن ليس على ما يرام – في الوقت الراهن

تدعي شركات الذكاء الاصطناعي أن لديها فحوصات سلامة قوية تضمن أن النماذج لا تقول أو تفعل أشياء غريبة أو غير قانونية أو غير آمنة. ولكن ماذا لو كانت النماذج قادرة على التهرب من تلك الفحوصات، ومحاولة تخريب المستخدمين أو تضليلهم لسبب ما؟ وتبين أنهم قادرون على القيام بذلك، وفقًا للباحثين الأنثروبيكيين. ليس فقط على ما يرام… في الوقت الحالي، على أي حال.

كتب فريق Alignment Science في Anthropic: “عندما تصبح أنظمة الذكاء الاصطناعي أكثر قدرة، قد يظهر نوع جديد من المخاطر: نماذج لديها القدرة على تضليل مستخدميها، أو تخريب الأنظمة التي نضعها للإشراف عليهم”.

ولذلك ينبغي علينا أن نبحث في طرق قياس “قدرة النموذج على التخريب”.

إن سلسلة التجارب التي ابتكروها مصطنعة إلى حد ما وعلى مستوى السطح، لكنها تشير إلى أن هناك شيئًا يستحق المزيد من التحقيق. فيما يلي النماذج المشبوهة التي قاموا بتدريبها والنتائج التي لاحظوها:

المهمة 1: تضليل المستخدم سرًا عن طريق تحريف البيانات المقصود تلخيصها أو تفسيرها. النتيجة: إنها تعمل! كلما كانت محاولات النموذج أكثر عدوانية، كان تأثيرها أكبر على الأشخاص الذين يستخدمونها، ولكنها أيضًا جعلتهم أكثر تشككًا.

المهمة 2: قم بإدخال خطأ في التعليمات البرمجية التي لن يلاحظها نموذج مدقق التعليمات البرمجية البشري أو أي نموذج آخر. النتيجة: إنها تعمل! ولكن في 1% فقط من الحالات، يكون المدقق نموذجًا متطورًا.

اعتمادات الصورة:أنثروبي

المهمة 3: “كيس الرمل” هو فحص للسلامة من خلال التظاهر بأنه أقل خطورة. النتيجة: إنها تعمل! النموذج “فشل بنجاح” وعمل بأقل بكثير من قدرته الحقيقية. ولحسن الحظ، فإن دورة “التدريب على السلامة” القياسية التي توجه النماذج لتمثيل قدراتها بدقة أعادت النموذج إلى إمكاناته الكاملة (أي أنه لم يعد قادرًا على إخفاء القدرات الخطيرة).

المهمة 4: لا تشير عمدًا إلى السلوك السيئ من جانب النموذج الذي تتم مراقبته. النتيجة: كانت هناك محاولة. الذكاء الاصطناعي “المشرف”، الذي تم توجيهه لتجنب الإشارة إلى الخيارات غير القانونية أو غير الآمنة من قبل النماذج الأخرى، سرعان ما تم القبض عليه من قبل ذكاء اصطناعي مشرف آخر أكثر صدقًا. ولكن ماذا لو الذي – التي هل تم اختراق الذكاء الاصطناعي؟ لا تقلق، يمكننا وضع واحدة أخرى فوقها. ثم آخر فقط للتأكد. إنه المشرفون على طول الطريق.

ويخلص الباحثون إلى أنه على الرغم من عدم وجود أي خطر حقيقي من هذا الجانب حتى الآن، إلا أن القدرة على القيام بهذا النوع من التخريب والحيلة موجودة في النماذج. وهذا سبب كافٍ لمراقبته وإدراج أساليب مكافحة التخريب في حزمة الأمان.

يمكنك قراءة الورقة الكاملة التي تصف عمل الباحثين هنا.

مرتبط

اكتشاف المزيد من موقع شعاع للمعلوماتية

اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.

الوسوم

sho3a3

0 32 2 دقائق

هل يمكن لفحص سلامة أكياس الرمل باستخدام الذكاء الاصطناعي تخريب المستخدمين؟ نعم، ولكن ليس على ما يرام – في الوقت الراهن

معجب بهذه:

مرتبط

اكتشاف المزيد من موقع شعاع للمعلوماتية

sho3a3

اترك تعليقاً إلغاء الرد

ترحب شركات رأس المال الاستثماري الأوروبية بمبلغ 1.3 مليار دولار الجديد الذي حصلت عليه شركة Balderton ولكنها تتذمر من إخفاقات الذكاء الاصطناعي في أوروبا

تُصدر Snowflake نموذجًا رائدًا للذكاء الاصطناعي التوليدي خاصًا بها

لماذا يبيع سكوت بينتر منزلاً على الشاطئ لبدء شركة جديدة لبرمجيات المركبات

يضيف Brave Search دردشة AI لأسئلة المتابعة بعد استعلامك الأولي

حققت شركة fintech Unicorn N26 الألمانية أول ربع مربح لها

أظهرت الإيداعات أن Crusoe، أحد موردي مراكز بيانات OpenAI، قد حصل على أموال جديدة بقيمة 686 مليون دولار

مالك WordPress.com Automattic يلتقط المدقق النحوي Harper

استحوذت Wiz على Dazz مقابل 450 مليون دولار لتوسيع منصة الأمن السيبراني الخاصة بها

روابط نصية AA50

أكتوبر 2024
س	د	ن	ث	أرب	خ	ج
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

شارك هذا الموضوع:

معجب بهذه:

مرتبط

اكتشاف المزيد من موقع شعاع للمعلوماتية

مقالات ذات صلة

اترك تعليقاً إلغاء الرد

ترحب شركات رأس المال الاستثماري الأوروبية بمبلغ 1.3 مليار دولار الجديد الذي حصلت عليه شركة Balderton ولكنها تتذمر من إخفاقات الذكاء الاصطناعي في أوروبا

تُصدر Snowflake نموذجًا رائدًا للذكاء الاصطناعي التوليدي خاصًا بها

لماذا يبيع سكوت بينتر منزلاً على الشاطئ لبدء شركة جديدة لبرمجيات المركبات

اكتشاف المزيد من موقع شعاع للمعلوماتية