جميع نماذج الذكاء الاصطناعي التوليدية تهذي، من Gemini من Google إلى Anthropic’s Claude إلى أحدث إصدار خفي من GPT-4o من OpenAI. بعبارة أخرى، النماذج عبارة عن رواة غير موثوقين – أحيانًا بشكل مضحك، وفي أحيان أخرى بشكل مثير للإشكال.
لكن ليست كل النماذج تصنع الأشياء بنفس المعدل. وتعتمد أنواع الأكاذيب التي ينشرونها على مصادر المعلومات التي تعرضوا لها.
سعت دراسة حديثة أجراها باحثون في جامعة كورنيل وجامعتي واشنطن وواترلو ومعهد الأبحاث غير الربحي AI2 إلى قياس الهلوسة من خلال نماذج التحقق من الحقائق مثل GPT-4o مقابل مصادر موثوقة حول مواضيع تتراوح بين القانون والصحة إلى التاريخ والجغرافيا. لقد وجدوا أنه لم يكن هناك أي نموذج يؤدي أداءً جيدًا بشكل استثنائي في جميع المواضيع، وأن النماذج التي كانت أقل هلوسة فعلت ذلك جزئيًا لأنها رفضت الإجابة على الأسئلة التي كانت ستخطئ فيها.
قال وينتينج تشاو، طالب الدكتوراه في جامعة كورنيل والمؤلف المشارك في البحث، لـ TechCrunch: “إن أهم ما تعلمناه من عملنا هو أننا لا نستطيع حتى الآن أن نثق بشكل كامل في مخرجات الأجيال النموذجية”. “في الوقت الحاضر، حتى أفضل النماذج يمكنها إنتاج نص خالٍ من الهلوسة في حوالي 35% فقط من الوقت.”
كانت هناك محاولات أكاديمية أخرى للتحقق من “واقعية” النماذج، بما في ذلك محاولة أجراها فريق منفصل تابع لـ AI2. لكن تشاو يشير إلى أن هذه الاختبارات السابقة طرحت على النماذج أسئلة يمكن العثور على إجابات لها بسهولة على ويكيبيديا، وهو ليس السؤال الأصعب، مع الأخذ في الاعتبار أن معظم النماذج يتم تدريبها على بيانات ويكيبيديا.
ولجعل معيارهم أكثر تحديًا – ولكي يعكس بشكل أكثر دقة أنواع الأسئلة التي يطرحها الأشخاص على النماذج – حدد الباحثون موضوعات حول الويب التي لا لديك مرجع ويكيبيديا. لا يمكن الإجابة على ما يزيد قليلاً عن نصف الأسئلة في اختبارهم باستخدام ويكيبيديا (بما في ذلك بعض الأسئلة التي تم الحصول عليها من ويكيبيديا لحسن التدبير)، وتتطرق إلى موضوعات تشمل الثقافة والجغرافيا وعلم الفلك والثقافة الشعبية والمالية والطب وعلوم الكمبيوتر والمشاهير. .
ومن أجل دراستهم، قام الباحثون بتقييم أكثر من عشرة نماذج شعبية مختلفة، تم إصدار الكثير منها في العام الماضي. بالإضافة إلى GPT-4o، قاموا باختبار نماذج “مفتوحة” مثل Meta’s Llama 3 70B، وMistral’s Mixtral 8x22B وCohere’s Command R+، بالإضافة إلى نماذج واجهة برمجة التطبيقات المسورة خلفها مثل Sonar Large من Perplexity (الذي يعتمد على Llama)، ونماذج Google. Gemini 1.5 Pro و Anthropic’s Claude 3 Opus.
تشير النتائج إلى أن هلوسة النماذج أقل بكثير هذه الأيام، على الرغم من ادعاءات عكس ذلك من OpenAI وAnthropic وغيرهما من كبار شركات الذكاء الاصطناعي.
كان أداء GPT-4o وGPT-3.5 الرائد الأقدم من OpenAI متماثلًا تقريبًا من حيث النسبة المئوية للأسئلة التي أجابوا عليها بشكل صحيح في المعيار. (كان GPT-4o أفضل بشكل طفيف.) كانت نماذج OpenAI هي الأقل هلوسة بشكل عام، تليها نماذج Mixtral 8x22B، وCommand R، ونماذج Sonar من Perplexity.
كانت الأسئلة المتعلقة بالمشاهير والتمويل هي التي واجهت العارضات أصعب الأوقات، لكن الأسئلة المتعلقة بالجغرافيا وعلوم الكمبيوتر كانت أسهل بالنسبة للنماذج للإجابة عليها (ربما لأن بيانات التدريب الخاصة بها تحتوي على المزيد من الإشارات إلى هذه الأمور). في الحالات التي لم يكن فيها مصدر الإجابة ويكيبيديا، أجاب كل نموذج بشكل أقل واقعية في المتوسط (ولكن بشكل خاص GPT-3.5 وGPT-4o)، مما يشير إلى أنهم جميعًا مطلعون بشكل كبير على محتوى ويكيبيديا.
حتى النماذج التي يمكنها البحث في الويب عن معلومات، مثل نماذج Command R وPerplexity’s Sonar، واجهت أسئلة “غير متعلقة بـ Wiki” في المعيار. حجم النموذج لا يهم كثيرا. كانت النماذج الأصغر حجمًا (مثل Anthropic’s Claude 3 Haiku) تهلوس بشكل متكرر تقريبًا مثل النماذج الأكبر حجمًا والأكثر قدرة ظاهريًا (مثل Claude 3 Opus).
فماذا يعني كل هذا، وأين هي التحسينات التي وعد بها البائعون؟
حسنًا، لن نتجاوز البائعين للمبالغة في ادعاءاتهم. لكن الأمر الأكثر إحسانًا هو أن المعايير التي يستخدمونها لا تناسب هذا الغرض. كما كتبنا من قبل، فإن العديد من تقييمات الذكاء الاصطناعي، إن لم يكن معظمها، تكون عابرة وخالية من السياق المهم، ومحكوم عليها بالوقوع ضحية لقانون جودهارت.
وبغض النظر عن ذلك، تقول تشاو إنها تتوقع أن تستمر مشكلة الهلوسة “لفترة طويلة”.
وقالت: “تشير النتائج التجريبية في بحثنا إلى أنه على الرغم من الوعد بطرق معينة لتقليل الهلوسة أو القضاء عليها، فإن التحسن الفعلي الذي يمكن تحقيقه باستخدام هذه الأساليب محدود”. “بالإضافة إلى ذلك، يكشف تحليلنا أنه حتى المعرفة الموجودة على الإنترنت يمكن أن تكون متضاربة في كثير من الأحيان، ويرجع ذلك جزئيًا إلى أن بيانات التدريب – التي ألفها البشر – يمكن أن تحتوي أيضًا على هلوسة”.
قد يكون الحل المؤقت هو ببساطة برمجة النماذج لرفض الإجابة في كثير من الأحيان – وهو المعادل الفني لإخبار شخص يعرف كل شيء بالتوقف عن الإجابة.
في اختبار الباحثين، أجاب كلود 3 هايكو فقط على حوالي 72% من الأسئلة التي طرحت عليه، واختار الامتناع عن الباقي. عند حساب الامتناع عن التصويت، كان كلود 3 هايكو في الواقع النموذج الأكثر واقعية على الإطلاق – على الأقل بمعنى أنه كذب في كثير من الأحيان.
ولكن هل سيستخدم الناس نموذجًا لا يجيب على العديد من الأسئلة؟ لا يعتقد تشاو ذلك، ويقول إنه ينبغي على البائعين تركيز المزيد من وقتهم وجهودهم على أبحاث الحد من الهلوسة. وتؤكد أن القضاء على الهلوسة تمامًا قد لا يكون ممكنًا، ولكن يمكن تخفيفها من خلال التحقق من الحقائق والاستشهاد بها أثناء تطوير النموذج.
وأضاف تشاو: “يجب تطوير السياسات واللوائح لضمان مشاركة الخبراء البشريين دائمًا في عملية التحقق والتحقق من صحة المعلومات الناتجة عن نماذج الذكاء الاصطناعي التوليدية”. “لا تزال هناك فرص عديدة لإحداث تأثيرات كبيرة في هذا المجال، مثل تطوير أدوات متقدمة للتحقق من صحة أي نص حر، وتوفير الاستشهادات للمحتوى الواقعي وتقديم تصحيحات للنصوص المهلوسة.”