لا تعالج نماذج الذكاء الاصطناعي التوليدية النص بنفس الطريقة التي يعالج بها البشر. قد يساعد فهم بيئاتهم الداخلية القائمة على “الرمز المميز” في تفسير بعض سلوكياتهم الغريبة والقيود العنيدة.
معظم النماذج، بدءًا من النماذج الصغيرة الموجودة على الأجهزة مثل Gemma وحتى GPT-4o الرائدة في الصناعة من OpenAI، مبنية على بنية تُعرف باسم المحول. نظرًا للطريقة التي تستحضر بها المحولات الارتباطات بين النص وأنواع البيانات الأخرى، فإنها لا تستطيع استيعاب أو إخراج نص خام – على الأقل ليس بدون قدر هائل من الحساب.
لذلك، ولأسباب عملية وتقنية، تعمل نماذج المحولات الحالية مع نص تم تقسيمه إلى أجزاء أصغر حجمًا تسمى الرموز المميزة – وهي عملية تُعرف باسم الرمز المميز.
يمكن أن تكون الرموز كلمات، مثل “رائع”. أو يمكن أن تكون مقاطع لفظية، مثل “fan” و”tas” و”tic”. اعتمادًا على أداة الرمز المميز – النموذج الذي يقوم بعملية الترميز – قد تكون حتى أحرفًا فردية في الكلمات (على سبيل المثال، “f”، “a”، “n”، “t”، “a”، “s”، “t،” “”ط”، “ج”).
باستخدام هذه الطريقة، يمكن للمحولات استيعاب المزيد من المعلومات (بالمعنى الدلالي) قبل أن تصل إلى الحد الأعلى المعروف باسم نافذة السياق. لكن الترميز يمكن أن يؤدي أيضًا إلى التحيزات.
تحتوي بعض الرموز المميزة على مسافات غريبة، والتي يمكن أن تعرقل المحول. قد يقوم برنامج الرمز المميز بتشفير “ذات مرة” على أنها “ذات مرة”، و”على”، و”a”، و”time”، على سبيل المثال، أثناء ترميز “ذات مرة” (التي تحتوي على مسافة بيضاء زائدة) على أنها “مرة واحدة”، و” بناء على،” ” .” اعتمادًا على كيفية مطالبة النموذج – باستخدام “ذات مرة” أو “ذات مرة” – قد تكون النتائج مختلفة تمامًا، لأن النموذج لا يفهم (كما قد يفهم الشخص) أن المعنى هو نفسه.
تتعامل الرموز المميزة مع الحالة بشكل مختلف أيضًا. كلمة “Hello” ليست بالضرورة نفس كلمة “HELLO” بالنسبة للعارضة؛ عادةً ما يكون “hello” رمزًا واحدًا (اعتمادًا على أداة الرمز المميز)، في حين أن “HELLO” يمكن أن يصل إلى ثلاثة رموز (“HE” و”El” و”O”). ولهذا السبب تفشل العديد من المحولات في اختبار الحروف الكبيرة.
“من الصعب نوعًا ما التغلب على سؤال ما الذي يجب أن تكون عليه “الكلمة” بالضبط بالنسبة لنموذج اللغة، وحتى لو تمكنا من إقناع الخبراء البشريين بالاتفاق على مفردات رمزية مثالية، فمن المحتمل أن تجد النماذج أنه من المفيد “التقطيع” الأمور أبعد من ذلك،” قال شيريدان فيوتشت، طالب دكتوراه يدرس قابلية تفسير نماذج اللغة الكبيرة في جامعة نورث إيسترن، لـ TechCrunch. “أعتقد أنه لا يوجد شيء اسمه رمز مميز مثالي بسبب هذا النوع من الغموض.”
هذا “الغموض” يخلق المزيد من المشاكل في لغات أخرى غير الإنجليزية.
تفترض العديد من أساليب الترميز أن المسافة في الجملة تشير إلى كلمة جديدة. وذلك لأنه تم تصميمها مع وضع اللغة الإنجليزية في الاعتبار. ولكن ليس كل اللغات تستخدم المسافات للفصل بين الكلمات. الصينيون واليابانيون لا يفعلون ذلك، ولا الكوريون أو التايلانديون أو الخمير.
وجدت دراسة أجرتها أكسفورد عام 2023 أنه بسبب الاختلافات في طريقة ترميز اللغات غير الإنجليزية، يمكن أن يستغرق المحول ضعف الوقت لإكمال مهمة تمت صياغتها بلغة غير الإنجليزية مقابل نفس المهمة المكتوبة باللغة الإنجليزية. وجدت نفس الدراسة – وأخرى – أن مستخدمي اللغات الأقل “كفاءة في الرمز المميز” من المرجح أن يشهدوا أداء نموذجيًا أسوأ ولكنهم يدفعون أكثر مقابل الاستخدام، نظرًا لأن العديد من بائعي الذكاء الاصطناعي يتقاضون رسومًا مقابل كل رمز مميز.
غالبًا ما يتعامل صانعو الرموز المميزة مع كل حرف في أنظمة الكتابة اللوغوغرافية – الأنظمة التي تمثل فيها الرموز المطبوعة كلمات دون الارتباط بالنطق، مثل اللغة الصينية – كرمز مميز، مما يؤدي إلى ارتفاع عدد الرموز المميزة. وبالمثل، تميل الرموز المميزة التي تعالج اللغات التراصية – اللغات التي تتكون فيها الكلمات من عناصر كلمات صغيرة ذات معنى تسمى المقاطع، مثل اللغة التركية – إلى تحويل كل مقطع إلى رمز مميز، مما يزيد من إجمالي عدد الرموز المميزة. (الكلمة المكافئة لكلمة “hello” باللغة التايلاندية، สวัสดี، هي ستة رموز.)
في عام 2023، أجرت باحثة الذكاء الاصطناعي في Google DeepMind، ييني جون، تحليلًا يقارن ترميز اللغات المختلفة وتأثيراتها النهائية. باستخدام مجموعة بيانات من النصوص المتوازية المترجمة إلى 52 لغة، أظهر جون أن بعض اللغات تحتاج إلى ما يصل إلى 10 أضعاف الرموز المميزة لالتقاط نفس المعنى باللغة الإنجليزية.
وبعيدًا عن عدم المساواة اللغوية، قد يفسر الترميز سبب ضعف النماذج الحالية في الرياضيات.
نادرًا ما يتم ترميز الأرقام بشكل متسق. نظرًا لأنهم لا يعرفون حقًا ما هي الأرقام، فقد يتعامل أصحاب الرموز المميزة مع “380” كرمز واحد، لكنهم يمثلون “381” كزوج (“38″ و”1”) – مما يؤدي بشكل فعال إلى تدمير العلاقات بين الأرقام والنتائج في المعادلات و الصيغ. والنتيجة هي ارتباك المحولات. أظهرت دراسة حديثة أن النماذج تكافح من أجل فهم الأنماط والسياق العددي المتكرر، وخاصة البيانات الزمنية. (انظر: GPT-4 يعتقد أن 7735 أكبر من 7926).
وهذا أيضًا هو السبب في أن النماذج ليست جيدة في حل مشكلات الجناس الناقص أو عكس الكلمات.
لذلك، يمثل الترميز بوضوح تحديات أمام الذكاء الاصطناعي التوليدي. هل يمكن حلها؟
ربما.
يشير Feucht إلى نماذج مساحة الحالة “على مستوى البايت” مثل MambaByte، والتي يمكنها استيعاب بيانات أكثر بكثير من المحولات دون عقوبة الأداء عن طريق التخلص من الترميز بالكامل. MambaByte، الذي يعمل مباشرة مع وحدات البايت الأولية التي تمثل النص والبيانات الأخرى، يتنافس مع بعض نماذج المحولات في مهام تحليل اللغة مع التعامل بشكل أفضل مع “الضوضاء” مثل الكلمات ذات الأحرف المتبادلة والمسافات والأحرف الكبيرة.
ومع ذلك، فإن نماذج مثل MambaByte لا تزال في مراحل البحث المبكرة.
قال فيوتشت: “ربما يكون من الأفضل السماح للنماذج بالنظر إلى الشخصيات مباشرة دون فرض الرموز، ولكن في الوقت الحالي هذا غير ممكن من الناحية الحسابية بالنسبة للمحولات”. “بالنسبة لنماذج المحولات على وجه الخصوص، يتم قياس الحساب بشكل تربيعي مع طول التسلسل، ولذلك نريد حقًا استخدام تمثيلات نصية قصيرة.”
وباستثناء حدوث اختراق في مجال الترميز، يبدو أن بنيات النماذج الجديدة ستكون هي المفتاح.