إحدى نقاط البيع لنماذج الذكاء الاصطناعي التوليدية الرائدة من Google، Gemini 1.5 Pro و1.5 Flash، هي كمية البيانات التي من المفترض أن يتمكنوا من معالجتها وتحليلها. في الإحاطات الصحفية والعروض التوضيحية، زعمت جوجل مرارًا وتكرارًا أن النماذج يمكنها إنجاز مهام مستحيلة سابقًا بفضل “سياقها الطويل”، مثل تلخيص عدة مستندات مكونة من مئات الصفحات أو البحث عبر المشاهد في لقطات الفيلم.
لكن الأبحاث الجديدة تشير إلى أن النماذج، في الواقع، ليست جيدة جدًا في هذه الأشياء.
بحثت دراستان منفصلتان في مدى نجاح نماذج جيميني التي طورتها جوجل وغيرها من النماذج في الاستفادة من كمية هائلة من البيانات – فكر في نجاح “الحرب والسلام”. يجد كلاهما أن Gemini 1.5 Pro و1.5 Flash يكافحان للإجابة على الأسئلة المتعلقة بمجموعات البيانات الكبيرة بشكل صحيح؛ وفي سلسلة واحدة من الاختبارات المستندة إلى المستندات، أعطت النماذج الإجابة الصحيحة بنسبة 40% فقط في 50% من الوقت.
“في حين أن نماذج مثل Gemini 1.5 Pro يمكنها معالجة السياقات الطويلة تقنيًا، فقد رأينا العديد من الحالات التي تشير إلى أن النماذج لا تفهم المحتوى في الواقع،” مارزينا كاربينسكا، باحثة ما بعد الدكتوراه في جامعة UMass Amherst ومؤلفة مشاركة في أحد الأبحاث. الدراسات، قالت لـ TechCrunch.
نافذة سياق الجوزاء غير موجودة
يشير سياق النموذج، أو نافذة السياق، إلى بيانات الإدخال (على سبيل المثال، النص) التي يأخذها النموذج في الاعتبار قبل إنشاء المخرجات (على سبيل المثال، نص إضافي). سؤال بسيط – “من فاز في الانتخابات الرئاسية الأمريكية لعام 2020؟” – يمكن أن يكون بمثابة سياق، كما يمكن أن يكون نص فيلم أو عرض أو مقطع صوتي. ومع نمو نوافذ السياق، يتزايد أيضًا حجم المستندات التي يتم وضعها فيها.
يمكن أن تستوعب أحدث الإصدارات من Gemini ما يزيد عن 2 مليون رمز كسياق. (“الرموز” هي أجزاء مقسمة من البيانات الأولية، مثل المقاطع “fan” و”tas” و”tic” في كلمة “fantastic”.) وهذا يعادل حوالي 1.4 مليون كلمة، أو ساعتين من الفيديو أو 22 ساعة من الصوت. – أكبر سياق لأي نموذج متاح تجاريًا.
في مؤتمر صحفي في وقت سابق من هذا العام، عرضت Google العديد من العروض التوضيحية المسجلة مسبقًا والتي تهدف إلى توضيح إمكانات Gemini ذات السياق الطويل. طلب أحدهم من برنامج Gemini 1.5 Pro البحث في نص البث التلفزيوني للهبوط على سطح القمر لمركبة أبولو 11 – حوالي 402 صفحة – بحثًا عن اقتباسات تحتوي على نكات، ثم العثور على مشهد في البث التلفزيوني يبدو مشابهًا لرسم بالقلم الرصاص.
ووصف نائب رئيس الأبحاث في Google DeepMind Oriol Vinyals، الذي قاد الإحاطة، النموذج بأنه “ساحر”.
“[1.5 Pro] وقال: “يقوم بهذه الأنواع من المهام المنطقية عبر كل صفحة وكل كلمة”.
ربما كان ذلك مبالغة.
في إحدى الدراسات المذكورة أعلاه لقياس هذه القدرات، طلبت كاربينسكا، جنبًا إلى جنب مع باحثين من معهد ألين للذكاء الاصطناعي وبرينستون، من النماذج تقييم البيانات الصحيحة/الخاطئة حول الكتب الخيالية المكتوبة باللغة الإنجليزية. اختار الباحثون الأعمال الحديثة بحيث لا تتمكن النماذج من “الغش” من خلال الاعتماد على المعرفة المسبقة، وقاموا بملء البيانات بإشارات إلى تفاصيل محددة ونقاط حبكة سيكون من المستحيل فهمها دون قراءة الكتب بأكملها.
بالنظر إلى عبارة مثل “باستخدام مهاراتها كأبوث، تستطيع Nusis إجراء هندسة عكسية لنوع البوابة المفتوحة بواسطة مفتاح الكواشف الموجود في صندوق رونا الخشبي”، كان على Gemini 1.5 Pro و1.5 Flash – بعد استيعاب الكتاب ذي الصلة – القيام بذلك قل ما إذا كانت العبارة صحيحة أم خاطئة واشرح أسبابها.
تم اختباره على كتاب واحد يبلغ طوله حوالي 260.000 كلمة (حوالي 520 صفحة)، ووجد الباحثون أن 1.5 Pro أجاب على عبارات الصواب/الخطأ بشكل صحيح بنسبة 46.7% من الوقت بينما أجاب Flash بشكل صحيح بنسبة 20% فقط من الوقت. وهذا يعني أن العملة المعدنية أفضل بكثير في الإجابة على الأسئلة المتعلقة بالكتاب من أحدث نموذج للتعلم الآلي من Google. وبحساب متوسط جميع النتائج المرجعية، لم يتمكن أي من النموذجين من تحقيق فرصة عشوائية أعلى من حيث دقة الإجابة على الأسئلة.
وقالت كاربينسكا: “لقد لاحظنا أن النماذج تواجه صعوبة أكبر في التحقق من الادعاءات التي تتطلب النظر في أجزاء أكبر من الكتاب، أو حتى الكتاب بأكمله، مقارنة بالادعاءات التي يمكن حلها عن طريق استرجاع الأدلة على مستوى الجملة”. “من الناحية النوعية، لاحظنا أيضًا أن النماذج تكافح من أجل التحقق من الادعاءات حول المعلومات الضمنية الواضحة للقارئ البشري ولكن لم يتم ذكرها صراحةً في النص.”
اختبرت الدراسة الثانية، التي شارك في تأليفها باحثون في جامعة كاليفورنيا في سانتا باربرا، قدرة Gemini 1.5 Flash (ولكن ليس 1.5 Pro) على “التفكير المنطقي” في مقاطع الفيديو – أي البحث في الأسئلة المتعلقة بالمحتوى الموجود فيها والإجابة عنها. .
أنشأ المؤلفون المشاركون مجموعة بيانات من الصور (على سبيل المثال، صورة كعكة عيد ميلاد) مقترنة بأسئلة للنموذج للإجابة حول الكائنات الموضحة في الصور (على سبيل المثال، “ما هي الشخصية الكرتونية الموجودة على هذه الكعكة؟”). ولتقييم النماذج، اختاروا إحدى الصور بشكل عشوائي وأدخلوا صورًا “مشتتة للانتباه” قبلها وبعدها لإنشاء لقطات تشبه عرض الشرائح.
لم يكن أداء الفلاش جيدًا. في اختبار قام فيه النموذج بنسخ ستة أرقام مكتوبة بخط اليد من “عرض شرائح” مكون من 25 صورة، نجح Flash في تسجيل حوالي 50% من النسخ بشكل صحيح. انخفضت الدقة إلى حوالي 30% بثمانية أرقام.
قال مايكل ساكسون، طالب دكتوراه في جامعة كاليفورنيا في سانتا باربرا وأحد المؤلفين المشاركين في الدراسة، لـ TechCrunch: “في مهام الإجابة على الأسئلة الحقيقية عبر الصور، يبدو الأمر صعبًا بشكل خاص بالنسبة لجميع النماذج التي اختبرناها”. “قد يكون هذا القدر الضئيل من التفكير – إدراك وجود رقم في إطار وقراءته – هو ما يكسر النموذج.”
جوجل تبالغ في الوعود مع الجوزاء
لم تتم مراجعة أي من الدراستين من قبل النظراء، كما أنها لم تحقق في إصدارات Gemini 1.5 Pro و1.5 Flash مع سياقات مكونة من 2 مليون رمز مميز. (كلاهما اختبر إصدارات السياق التي تحتوي على مليون رمز مميز.) وليس من المفترض أن يكون Flash قادرًا مثل Pro من حيث الأداء؛ تعلن Google عنها كبديل منخفض التكلفة.
ومع ذلك، فإن كليهما يصب الزيت على النار التي كانت جوجل تبالغ في وعودها – وتقصر في الوفاء بها – مع جيميني منذ البداية. لم يكن أداء أي من النماذج التي اختبرها الباحثون، بما في ذلك GPT-4o من OpenAI و Claude 3.5 Sonnet من Anthropic، جيدًا. لكن شركة Google هي المزود النموذجي الوحيد الذي يمنح نافذة سياقية أعلى الفواتير في إعلاناته.
قال ساكسون: “لا يوجد خطأ في الادعاء البسيط، “نموذجنا يمكن أن يأخذ عددًا X من الرموز المميزة” بناءً على التفاصيل الفنية الموضوعية”. “لكن السؤال هو، ما الشيء المفيد الذي يمكنك فعله به؟”
يتعرض الذكاء الاصطناعي التوليدي على نطاق واسع لتدقيق متزايد مع تزايد إحباط الشركات (والمستثمرين) بسبب القيود التي تفرضها التكنولوجيا.
في اثنين من الدراسات الاستقصائية الأخيرة التي أجرتها مجموعة بوسطن الاستشارية، قال حوالي نصف المشاركين – جميعهم من المديرين التنفيذيين – إنهم لا يتوقعون أن يحقق الذكاء الاصطناعي الإنتاجي مكاسب كبيرة في الإنتاجية وأنهم قلقون بشأن احتمال حدوث أخطاء وفشل. تنازلات البيانات الناشئة عن الأدوات التوليدية التي تعمل بالذكاء الاصطناعي. أفادت PitchBook مؤخرًا أنه على مدار ربعين متتاليين، تراجعت عمليات إبرام صفقات الذكاء الاصطناعي التوليدية في المراحل الأولى، حيث انخفضت بنسبة 76٪ عن ذروتها في الربع الثالث من عام 2023.
في مواجهة روبوتات الدردشة التي تلخص الاجتماعات والتي تستحضر تفاصيل خيالية عن الأشخاص ومنصات بحث الذكاء الاصطناعي التي ترقى في الأساس إلى مولدات الانتحال، يبحث العملاء عن أدوات تمييز واعدة. جوجل – التي تسابقت، في بعض الأحيان بطريقة خرقاء، للحاق بمنافسيها في مجال الذكاء الاصطناعي – كانت يائسة لجعل سياق جيميني أحد تلك الفروق.
ولكن يبدو أن الرهان كان سابق لأوانه.
وقالت كاربينسكا: “لم نستقر بعد على طريقة لإظهار أن “الاستدلال” أو “الفهم” للوثائق الطويلة يحدث بالفعل، وكل مجموعة تطلق هذه النماذج تقوم بتجميع تقييماتها الخاصة لتقديم هذه الادعاءات”. . “بدون معرفة المدة التي يتم فيها تنفيذ معالجة السياق – ولا تشارك الشركات هذه التفاصيل – فمن الصعب تحديد مدى واقعية هذه الادعاءات”.
ولم تستجب جوجل لطلب التعليق.
يعتقد كل من ساكسون وكاربينسكا أن الترياق للادعاءات المبالغ فيها حول الذكاء الاصطناعي التوليدي هو معايير أفضل، وعلى نفس المنوال، تركيز أكبر على نقد الطرف الثالث. يشير ساكسون إلى أن أحد الاختبارات الأكثر شيوعًا للسياق الطويل (الذي استشهدت به Google بشكل حر في موادها التسويقية)، هو “إبرة في كومة قش”، يقيس فقط قدرة النموذج على استرداد معلومات معينة، مثل الأسماء والأرقام، من مجموعات البيانات – وليس الإجابة أسئلة معقدة حول تلك المعلومات.
وقال ساكسون: “إن جميع العلماء ومعظم المهندسين الذين يستخدمون هذه النماذج متفقون بشكل أساسي على أن ثقافة المعايير الحالية لدينا قد تم كسرها، لذلك من المهم أن يفهم الجمهور أن يأخذ هذه التقارير العملاقة التي تحتوي على أرقام مثل “الذكاء العام عبر المعايير” بكمية هائلة”. حبة الملح.”