كم مرة ظهر حرف R في كلمة فراولة؟ وفقا لمنتجات الذكاء الاصطناعي الهائلة مثل GPT-4o وClaude، فإن الإجابة هي مرتين.
يمكن للنماذج اللغوية الكبيرة كتابة المقالات وحل المعادلات في ثوانٍ. يمكنهم تجميع تيرابايت من البيانات بشكل أسرع مما يستطيع البشر فتح كتاب. ومع ذلك، فإن أنظمة الذكاء الاصطناعي هذه التي تبدو كليّة المعرفة تفشل أحيانًا بشكل مذهل لدرجة أن الحادث المؤسف يتحول إلى ميم فيروسي، ونحن جميعًا نبتهج بالارتياح لأنه ربما لا يزال هناك وقت قبل أن ننحني لأسيادنا الجدد في مجال الذكاء الاصطناعي.
إن فشل النماذج اللغوية الكبيرة في فهم مفاهيم الحروف والمقاطع يدل على حقيقة أكبر كثيرا ما ننساها: هذه الأشياء ليس لها أدمغة. إنهم لا يفكرون مثلنا. إنهم ليسوا بشرًا، ولا حتى يشبهون البشر بشكل خاص.
معظم برامج LLM مبنية على المحولات، وهو نوع من بنية التعلم العميق. تقوم نماذج المحولات بتقسيم النص إلى رموز مميزة، والتي يمكن أن تكون كلمات كاملة، أو مقاطع صوتية، أو أحرف، اعتمادًا على النموذج.
“تعتمد برامج LLM على بنية المحولات هذه، والتي لا تقرأ النص فعليًا. وقال ماثيو جوزديال، الباحث في مجال الذكاء الاصطناعي والأستاذ المساعد في جامعة ألبرتا، لـ TechCrunch: “ما يحدث عندما تقوم بإدخال مطالبة هو أنها تتم ترجمتها إلى ترميز”. “عندما يرى كلمة “the”، فإنه يحتوي على هذا التشفير لما تعنيه “the”، لكنه لا يعرف شيئًا عن “T” و”H” و”E”.
وذلك لأن المحولات غير قادرة على استيعاب النص الفعلي أو إخراجه بكفاءة. وبدلاً من ذلك، يتم تحويل النص إلى تمثيلات رقمية لنفسه، والتي يتم بعد ذلك وضعها في سياقها لمساعدة الذكاء الاصطناعي على التوصل إلى استجابة منطقية. بمعنى آخر، قد يعرف الذكاء الاصطناعي أن الرموز المميزة “straw” و”berry” تشكل “الفراولة”، لكنه قد لا يفهم أن “الفراولة” تتكون من الحروف “s” و”t” و”r” و” “a” و”w” و”b” و”e” و”r” و”r” و”y” بهذا الترتيب المحدد. وبالتالي، لا يمكنه إخبارك بعدد الأحرف – ناهيك عن عدد “r” – التي تظهر في كلمة “الفراولة”.
هذه ليست مشكلة سهلة الإصلاح، لأنها مضمنة في البنية نفسها التي تجعل برامج LLM تعمل.
بحث كايل ويجرز من TechCrunch في هذه المشكلة الشهر الماضي وتحدث إلى شيريدان فيوتشت، وهو طالب دكتوراه في جامعة نورث إيسترن يدرس قابلية التفسير في LLM.
“من الصعب نوعًا ما التغلب على سؤال ما الذي يجب أن تكون عليه “الكلمة” بالضبط بالنسبة لنموذج اللغة، وحتى لو تمكنا من إقناع الخبراء البشريين بالاتفاق على مفردات رمزية مثالية، فمن المحتمل أن تجد النماذج أنه من المفيد “التقطيع” وقال Feucht لـ TechCrunch: “الأمور أبعد من ذلك”. “أعتقد أنه لا يوجد شيء اسمه رمز مميز مثالي بسبب هذا النوع من الغموض.”
تصبح هذه المشكلة أكثر تعقيدًا عندما يتعلم LLM المزيد من اللغات. على سبيل المثال، قد تفترض بعض أساليب الترميز أن المسافة في الجملة ستسبق دائمًا كلمة جديدة، لكن العديد من اللغات مثل الصينية واليابانية والتايلاندية واللاوية والكورية والخميرية وغيرها لا تستخدم المسافات لفصل الكلمات. وجدت باحثة الذكاء الاصطناعي في Google DeepMind Yennie Jun في دراسة أجريت عام 2023 أن بعض اللغات تحتاج إلى ما يصل إلى عشرة أضعاف عدد الرموز المميزة التي تحتاجها اللغة الإنجليزية لتوصيل نفس المعنى.
قال فيوتشت: “ربما يكون من الأفضل السماح للنماذج بالنظر إلى الشخصيات مباشرة دون فرض الرموز، ولكن في الوقت الحالي هذا غير ممكن من الناحية الحسابية بالنسبة للمحولات”.
لا تستخدم مولدات الصور مثل Midjourney وDALL-E بنية المحولات الموجودة أسفل غطاء مولدات النصوص مثل ChatGPT. بدلاً من ذلك، تستخدم مولدات الصور عادة نماذج الانتشار، التي تعيد بناء الصورة من الضوضاء. يتم تدريب نماذج الانتشار على قواعد بيانات كبيرة من الصور، ويتم تحفيزهم لمحاولة إعادة إنشاء شيء مثل ما تعلموه من بيانات التدريب.
قال Asmelash Teka Hadgu، المؤسس المشارك لـ Lesan وزميل معهد DAIR، لـ TechCrunch: “تميل مولدات الصور إلى الأداء بشكل أفضل بكثير على القطع الأثرية مثل السيارات ووجوه الأشخاص، وأقل من ذلك على الأشياء الأصغر مثل الأصابع والكتابة اليدوية”.
قد يكون هذا بسبب أن هذه التفاصيل الصغيرة لا تظهر غالبًا بشكل بارز في مجموعات التدريب مثل مفاهيم مثل كيفية حصول الأشجار عادةً على أوراق خضراء. ومع ذلك، قد يكون إصلاح المشكلات المتعلقة بنماذج الانتشار أسهل من تلك التي تعاني منها المحولات. لقد تحسنت بعض مولدات الصور في تمثيل الأيدي، على سبيل المثال، من خلال التدريب على المزيد من صور الأيدي البشرية الحقيقية.
وأوضح جوزديال: “حتى في العام الماضي فقط، كانت كل هذه النماذج سيئة للغاية في متناول اليد، وهذه هي نفس مشكلة النص تمامًا”. “إنهم يتقنون هذا الأمر محليًا، لذلك إذا نظرت إلى يد بها ستة أو سبعة أصابع، يمكنك أن تقول، “أوه، هذا يبدو مثل الإصبع.” وبالمثل، مع النص الذي تم إنشاؤه، يمكنك القول أنه يبدو مثل “H”، وهذا يبدو مثل “P”، لكنهم سيئون حقًا في هيكلة هذه الأشياء بأكملها معًا.
لهذا السبب، إذا طلبت من منشئ صور يعمل بالذكاء الاصطناعي إنشاء قائمة لمطعم مكسيكي، فقد تحصل على عناصر عادية مثل “Tacos”، ولكن من المرجح أن تجد عروضًا مثل “Tamilos” و”Enchidaa” و”Burhiltos” “.
مع انتشار هذه الميمات حول تهجئة كلمة “الفراولة” عبر الإنترنت، تعمل شركة OpenAI على منتج جديد للذكاء الاصطناعي يحمل الاسم الرمزي Strawberry، والذي من المفترض أن يكون أكثر مهارة في التفكير. لقد كان نمو LLMs محدودًا بسبب عدم وجود بيانات تدريب كافية في العالم لجعل منتجات مثل ChatGPT أكثر دقة. لكن يُقال إن شركة Strawberry يمكنها توليد بيانات اصطناعية دقيقة لجعل برامج LLM الخاصة بـ OpenAI أفضل. وبحسب موقع The Information، يمكن لشركة Strawberry حل ألغاز الكلمات الخاصة بـ New York Times Connections، والتي تتطلب حلها تفكيرًا إبداعيًا والتعرف على الأنماط، كما يمكنها حل المعادلات الرياضية التي لم ترها من قبل.
وفي الوقت نفسه، كشفت Google DeepMind مؤخرًا عن نظامي AlphaProof وAlphaGeometry 2، وهما أنظمة ذكاء اصطناعي مصممة للاستدلال الرياضي الرسمي. وتقول جوجل إن هذين النظامين حلا أربع مسائل من أصل ستة في أولمبياد الرياضيات الدولي، وهو ما سيكون أداءً جيدًا بما يكفي للحصول على الميدالية الفضية في المسابقة المرموقة.
من قبيل التصيد أن يتم تداول الميمات حول عدم قدرة الذكاء الاصطناعي على تهجئة كلمة “الفراولة” في نفس الوقت الذي يتم فيه تداول التقارير حول الفراولة من OpenAI. لكن الرئيس التنفيذي لشركة OpenAI، سام ألتمان، اغتنم الفرصة ليبين لنا أنه حصل على محصول مثير للإعجاب من التوت في حديقته.
اكتشاف المزيد من موقع شعاع للمعلوماتية
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.