على الرغم من الطلب المتزايد على سلامة الذكاء الاصطناعي ومساءلته، فإن الاختبارات والمعايير الحالية قد تكون قاصرة، وفقًا لتقرير جديد.
تخضع نماذج الذكاء الاصطناعي التوليدي – النماذج التي يمكنها تحليل وإخراج النصوص والصور والموسيقى ومقاطع الفيديو وما إلى ذلك – لتدقيق متزايد بسبب ميلها إلى ارتكاب الأخطاء والتصرف بشكل غير متوقع بشكل عام. والآن، تقترح المنظمات، بدءًا من وكالات القطاع العام إلى شركات التكنولوجيا الكبرى، معايير جديدة لاختبار سلامة هذه النماذج.
في نهاية العام الماضي، شكلت شركة Scale AI الناشئة مختبرًا مخصصًا لتقييم مدى توافق النماذج مع إرشادات السلامة. في هذا الشهر، أصدر المعهد الوطني للمعايير والتكنولوجيا (NIST) ومعهد سلامة الذكاء الاصطناعي في المملكة المتحدة أدوات مصممة لتقييم مخاطر النماذج.
لكن اختبارات وأساليب فحص النماذج هذه قد تكون غير كافية.
أجرى معهد Ada Lovelace (ALI)، وهو منظمة بحثية غير ربحية مقرها المملكة المتحدة، دراسة أجريت مقابلات مع خبراء من المختبرات الأكاديمية والمجتمع المدني والذين ينتجون نماذج البائعين، بالإضافة إلى الأبحاث الحديثة المراجعة حول تقييمات سلامة الذكاء الاصطناعي. وجد المؤلفون المشاركون أنه على الرغم من أن التقييمات الحالية يمكن أن تكون مفيدة، إلا أنها غير شاملة، ويمكن التلاعب بها بسهولة، ولا تعطي بالضرورة إشارة إلى كيفية تصرف النماذج في سيناريوهات العالم الحقيقي.
“سواء كان هاتفًا ذكيًا أو دواءً موصوفًا أو سيارة، فإننا نتوقع أن تكون المنتجات التي نستخدمها آمنة وموثوقة؛ وقال إليوت جونز، كبير الباحثين في ALI والمؤلف المشارك للتقرير، لـ TechCrunch: “في هذه القطاعات، يتم اختبار المنتجات بدقة للتأكد من أنها آمنة قبل نشرها”. “يهدف بحثنا إلى دراسة القيود المفروضة على الأساليب الحالية لتقييم سلامة الذكاء الاصطناعي، وتقييم كيفية استخدام التقييمات حاليًا واستكشاف استخدامها كأداة لصانعي السياسات والمنظمين.”
المعايير والفريق الأحمر
قام المؤلفون المشاركون في الدراسة أولاً بمسح الأدبيات الأكاديمية لإنشاء نظرة عامة على نماذج الأضرار والمخاطر التي تشكلها اليوم، وحالة تقييمات نماذج الذكاء الاصطناعي الحالية. ثم أجروا مقابلات مع 16 خبيرًا، من بينهم أربعة موظفين في شركات تقنية لم يذكر اسمها تعمل على تطوير أنظمة الذكاء الاصطناعي التوليدية.
وجدت الدراسة خلافًا حادًا داخل صناعة الذكاء الاصطناعي حول أفضل مجموعة من الأساليب والتصنيفات لتقييم النماذج.
اختبرت بعض التقييمات فقط مدى توافق النماذج مع المعايير في المختبر، وليس مدى تأثير النماذج على المستخدمين في العالم الحقيقي. واعتمد آخرون على الاختبارات التي تم تطويرها لأغراض البحث، وليس تقييم نماذج الإنتاج – ومع ذلك أصر البائعون على استخدامها في الإنتاج.
لقد كتبنا عن المشاكل المتعلقة بمعايير الذكاء الاصطناعي من قبل، وتسلط الدراسة الضوء على كل هذه المشاكل وأكثر.
وأشار الخبراء المقتبسون في الدراسة إلى أنه من الصعب استقراء أداء النموذج من النتائج المعيارية، ومن غير الواضح ما إذا كانت المعايير يمكن أن تظهر حتى أن النموذج يمتلك قدرة محددة. على سبيل المثال، في حين أن النموذج قد يؤدي أداءً جيدًا في امتحان نقابة المحامين، فإن هذا لا يعني أنه سيكون قادرًا على حل المزيد من التحديات القانونية المفتوحة.
وأشار الخبراء أيضًا إلى مسألة تلوث البيانات، حيث يمكن لنتائج القياس أن تبالغ في تقدير أداء النموذج إذا تم تدريب النموذج على نفس البيانات التي يتم اختباره عليها. وقال الخبراء إن المعايير، في كثير من الحالات، يتم اختيارها من قبل المنظمات ليس لأنها أفضل أدوات التقييم، ولكن من أجل الراحة وسهولة الاستخدام.
“تخاطر المعايير بالتلاعب بها من قبل المطورين الذين قد يقومون بتدريب النماذج على نفس مجموعة البيانات التي سيتم استخدامها لتقييم النموذج، أي ما يعادل رؤية ورقة الامتحان قبل الامتحان، أو عن طريق الاختيار الاستراتيجي للتقييمات التي سيتم استخدامها،” ماهي هاردالوباس، الباحث في وقال ALI ومؤلف مشارك في الدراسة لـ TechCrunch. “من المهم أيضًا إصدار النموذج الذي يتم تقييمه. يمكن أن تؤدي التغييرات الصغيرة إلى تغييرات غير متوقعة في السلوك وقد تتجاوز ميزات الأمان المضمنة.
وجدت دراسة ALI أيضًا مشاكل في “الفريق الأحمر”، وهو ممارسة تكليف الأفراد أو المجموعات بـ “مهاجمة” نموذج لتحديد نقاط الضعف والعيوب. ويستخدم عدد من الشركات نظام الفريق الأحمر لتقييم النماذج، بما في ذلك شركات الذكاء الاصطناعي الناشئة OpenAI وAnthropic، ولكن هناك عدد قليل من المعايير المتفق عليها للفريق الأحمر، مما يجعل من الصعب تقييم فعالية جهد معين.
أخبر الخبراء المؤلفين المشاركين في الدراسة أنه قد يكون من الصعب العثور على أشخاص يتمتعون بالمهارات والخبرة اللازمة للفريق الأحمر، وأن الطبيعة اليدوية للفريق الأحمر تجعله مكلفًا وشاقًا – مما يمثل عوائق أمام المنظمات الأصغر حجمًا دون الموارد اللازمة.
الحلول الممكنة
إن الضغط من أجل إطلاق النماذج بشكل أسرع والإحجام عن إجراء الاختبارات التي يمكن أن تثير مشكلات قبل الإصدار هي الأسباب الرئيسية لعدم تحسن تقييمات الذكاء الاصطناعي.
قال جونز: “شعر أحد الأشخاص الذين تحدثنا إليهم والذي يعمل في شركة تعمل على تطوير النماذج الأساسية، بوجود ضغط أكبر داخل الشركات لإطلاق النماذج بسرعة، مما يجعل من الصعب التراجع عنها وأخذ التقييمات على محمل الجد”. “تُطلق مختبرات الذكاء الاصطناعي الكبرى نماذج بسرعة تفوق قدرة مختبراتها أو قدرة المجتمع على ضمان أنها آمنة وموثوقة.”
وصف أحد الأشخاص الذين تمت مقابلتهم في دراسة ALI تقييم نماذج السلامة بأنها مشكلة “عسيرة”. إذن، ما هو الأمل الذي يحمله القطاع – والجهات التي تنظمه – في إيجاد الحلول؟
يعتقد ماهي هاردالوباس، الباحث في معهد ALI، أن هناك طريقًا للمضي قدمًا، لكنه سيتطلب المزيد من المشاركة من هيئات القطاع العام.
وقال: “يجب على المنظمين وصانعي السياسات أن يوضحوا بوضوح ما يريدون من التقييمات”. “وفي الوقت نفسه، يجب أن يتحلى مجتمع التقييم بالشفافية بشأن القيود الحالية وإمكانات التقييمات.”
يقترح هاردالوباس أن تفرض الحكومات المزيد من المشاركة العامة في تطوير التقييمات وتنفيذ التدابير لدعم “النظام البيئي” لاختبارات الطرف الثالث، بما في ذلك البرامج التي تضمن الوصول المنتظم إلى أي نماذج ومجموعات بيانات مطلوبة.
يعتقد جونز أنه قد يكون من الضروري تطوير تقييمات “خاصة بالسياق” تتجاوز مجرد اختبار كيفية استجابة النموذج للموجه، وبدلاً من ذلك تنظر إلى أنواع المستخدمين التي قد يؤثر عليها النموذج (مثل الأشخاص من خلفية معينة أو جنس أو العرقية) والطرق التي يمكن بها للهجمات على النماذج أن تهزم الضمانات.
وأضافت: “سيتطلب ذلك الاستثمار في العلوم الأساسية للتقييمات لتطوير تقييمات أكثر قوة وقابلة للتكرار تعتمد على فهم كيفية عمل نموذج الذكاء الاصطناعي”.
لكن قد لا يكون هناك ضمان أبدًا بأن العارضة آمنة.
وقال هاردالوباس: “كما لاحظ آخرون، فإن “السلامة” ليست من خصائص العارضات”. “إن تحديد ما إذا كان النموذج “آمنًا” يتطلب فهم السياقات التي يتم استخدامه فيها، ومن يتم بيعه أو إتاحته، وما إذا كانت الضمانات الموجودة كافية وقوية للحد من تلك المخاطر. يمكن لتقييمات النموذج الأساسي أن تخدم غرضًا استكشافيًا لتحديد المخاطر المحتملة، لكنها لا تضمن أن النموذج آمن، ناهيك عن كونه “آمنًا تمامًا”. وقد اتفق العديد من الأشخاص الذين أجرينا معهم المقابلات على أن التقييمات لا يمكن أن تثبت أن النموذج آمن ويمكنها فقط الإشارة إلى أن النموذج غير آمن.