كم عدد نماذج الذكاء الاصطناعي كثيرة جدًا؟ يعتمد الأمر على الطريقة التي تنظر بها إلى الأمر، ولكن ربما يكون 10 أسبوعيًا كثيرًا. هذا تقريبًا هو عدد النماذج التي رأيناها في الأيام القليلة الماضية، ومن الصعب بشكل متزايد تحديد ما إذا كانت هذه النماذج يمكن مقارنتها ببعضها البعض وكيف يمكن ذلك، إذا كان من الممكن البدء بها. لذلك ما هي النقطة؟
نحن نمر بوقت غريب في تطور الذكاء الاصطناعي، على الرغم من أنه كان غريبًا جدًا طوال الوقت. نحن نشهد انتشارًا للنماذج الكبيرة والصغيرة، بدءًا من المطورين المتخصصين وحتى المطورين الكبار ذوي التمويل الجيد.
دعونا نستعرض القائمة من هذا الأسبوع، أليس كذلك؟ لقد حاولت تكثيف ما يميز كل نموذج عن الآخر.
- LLaMa-3: أحدث نموذج لغة كبير “مفتوح” من Meta. (مصطلح “مفتوح” محل نزاع في الوقت الحالي، ولكن هذا المشروع يستخدم على نطاق واسع من قبل المجتمع بغض النظر.)
- ميسترال 8×22: نموذج “خليط من الخبراء”، على الجانب الكبير، من مجموعة فرنسية ابتعدت عن الانفتاح الذي اعتنقته ذات يوم.
- Stable Diffusion 3 Turbo: SD3 تمت ترقيته ليتوافق مع واجهة برمجة التطبيقات الجديدة الخاصة بـ open-ish Stability. يعد استعارة كلمة “turbo” من تسميات نماذج OpenAI أمرًا غريبًا بعض الشيء، لكنه لا بأس به.
- Adobe Acrobat AI Assistant: “تحدث إلى مستنداتك” من غوريلا المستندات التي يبلغ وزنها 800 رطل. من المؤكد أن هذا في الغالب عبارة عن غلاف لـ ChatGPT.
- Reka Core: من فريق صغير كان يعمل سابقًا لدى Big AI، وهو نموذج متعدد الوسائط تم إعداده من الصفر وينافس الكلاب الكبيرة اسميًا على الأقل.
- Idefics2: نموذج متعدد الوسائط أكثر انفتاحًا، مبني على أعلى نماذج ميسترال وجوجل الحديثة والأصغر حجمًا.
- OLMo-1.7-7B: نسخة أكبر من AI2’s LLM، من بين أكثر الإصدارات انفتاحًا، ونقطة انطلاق لنموذج مستقبلي بمقياس 70B.
- Pile-T5: نسخة من نموذج T5 الموثوق به والمضبوط بدقة على قاعدة بيانات التعليمات البرمجية Pile. نفس T5 الذي تعرفه وتحبه ولكنه أفضل في البرمجة.
- Cohere Compass: “نموذج التضمين” (إذا كنت لا تعرف ذلك بالفعل، فلا تقلق بشأنه) يركز على دمج أنواع بيانات متعددة لتغطية المزيد من حالات الاستخدام.
- تخيل فلاش: أحدث نموذج لتوليد الصور من Meta، يعتمد على طريقة التقطير الجديدة لتسريع النشر دون المساس بالجودة بشكل مفرط.
- لا حدود لها: “ذكاء اصطناعي مخصص مدعوم بما رأيته أو قلته أو سمعته. أناإنه تطبيق ويب، وتطبيق Mac، وتطبيق Windows، وجهاز يمكن ارتداؤه. 😬
هذا هو 11، لأنه تم الإعلان عن واحد بينما كنت أكتب هذا. وهذه ليست جميع النماذج التي تم إصدارها أو معاينتها هذا الأسبوع! إنها فقط تلك التي رأيناها وناقشناها. إذا أردنا تخفيف شروط التضمين قليلاً، فسيكون هناك العشرات: بعض النماذج الحالية المضبوطة بدقة، وبعض المجموعات مثل Idefics 2، وبعضها تجريبي أو متخصص، وما إلى ذلك. ناهيك عن الأدوات الجديدة لهذا الأسبوع لبناء (torchtune) ومحاربة (Glaze 2.0) للذكاء الاصطناعي التوليدي!
ماذا سنفعل من هذا الانهيار الجليدي الذي لا ينتهي؟ لا يمكننا “مراجعتها” جميعًا. فكيف يمكننا مساعدتكم، أيها القراء، على فهم كل هذه الأمور ومواكبتها؟
الحقيقة هي أنك لا تحتاج إلى مواكبة. تطورت بعض النماذج مثل ChatGPT وGemini إلى منصات ويب كاملة، تشمل حالات استخدام ونقاط وصول متعددة. نماذج اللغات الكبيرة الأخرى مثل LLaMa أو OLMo – على الرغم من أنها تشترك في البنية الأساسية من الناحية الفنية – لا تقوم في الواقع بنفس الدور. الغرض منها هو العيش في الخلفية كخدمة أو مكون، وليس في المقدمة كعلامة تجارية.
هناك بعض الالتباس المتعمد حول هذين الأمرين، لأن مطوري النماذج يريدون استعارة القليل من الضجة المرتبطة بإصدارات منصات الذكاء الاصطناعي الرئيسية، مثل GPT-4V أو Gemini Ultra. الجميع يريد منك أن تعتقد أن إطلاق سراحهم هو أمر مهم. وعلى الرغم من أنه ربما يكون مهمًا لشخص ما، فمن المؤكد تقريبًا أن هذا الشخص ليس أنت.
فكر في الأمر بمعنى فئة أخرى واسعة ومتنوعة مثل السيارات. عندما تم اختراعها لأول مرة، كنت قد اشتريت للتو “سيارة”. وبعد ذلك بقليل، يمكنك الاختيار بين سيارة كبيرة، وسيارة صغيرة، وجرار. في الوقت الحاضر، يتم إصدار مئات السيارات كل عام، لكن ربما لا تحتاج إلى أن تكون على دراية حتى بواحدة من كل عشرة منها، لأن تسعة من كل عشرة ليست سيارة تحتاجها أو حتى سيارة كما تفهم هذا المصطلح. وبالمثل، نحن ننتقل من عصر الذكاء الاصطناعي الكبير/الصغير/الجرار إلى عصر الانتشار، وحتى متخصصي الذكاء الاصطناعي لا يمكنهم مواكبة واختبار جميع النماذج القادمة.
الجانب الآخر من هذه القصة هو أننا كنا بالفعل في هذه المرحلة قبل وقت طويل من ظهور ChatGPT والنماذج الكبيرة الأخرى. كان عدد أقل بكثير من الناس يقرأون عن هذا منذ 7 أو 8 سنوات، لكننا قمنا بتغطيته مع ذلك لأنه من الواضح أنه كان تقنية تنتظر لحظة الاختراق. كانت هناك أوراق بحثية ونماذج وأبحاث تصدر باستمرار، وكانت مؤتمرات مثل SIGGRAPH وNeurIPS مليئة بمهندسي التعلم الآلي الذين يقارنون الملاحظات ويبنيون على عمل بعضهم البعض. إليكم قصة الفهم البصري التي كتبتها في عام 2011!
ولا يزال هذا النشاط مستمرًا كل يوم. ولكن نظرًا لأن الذكاء الاصطناعي أصبح عملاً تجاريًا كبيرًا – يمكن القول إنه الأكبر في مجال التكنولوجيا في الوقت الحالي – فقد تم إضفاء وزن إضافي على هذه التطورات، نظرًا لأن الناس لديهم فضول حول ما إذا كان أحد هذه التطورات قد يمثل قفزة كبيرة على ChatGPT مثل ChatGPT على سابقاتها.
والحقيقة البسيطة هي أن أيًا من هذه النماذج لن يمثل هذا النوع من الخطوة الكبيرة، نظرًا لأن تقدم OpenAI كان مبنيًا على تغيير أساسي في بنية التعلم الآلي التي تبنتها الآن كل شركة أخرى، والتي لم يتم استبدالها. التحسينات الإضافية مثل نقطة أو نقطتين أفضل على معيار تركيبي، أو لغة أو صور أكثر إقناعًا بشكل هامشي، هي كل ما علينا أن نتطلع إليه في الوقت الحاضر.
هل هذا يعني أن أياً من هذه النماذج لا يهم؟ بالتأكيد يفعلون. لا يمكنك الانتقال من الإصدار 2.0 إلى 3.0 بدون 2.1 و2.2 و2.2.1 وما إلى ذلك. وفي بعض الأحيان تكون هذه التطورات ذات مغزى، أو تعالج أوجه قصور خطيرة، أو تكشف عن نقاط ضعف غير متوقعة. نحن نحاول تغطية الأشياء المثيرة للاهتمام، لكن هذا مجرد جزء صغير من العدد الكامل. نحن نعمل الآن على قطعة تجمع كل النماذج التي نعتقد أن فضولي تعلم الآلة يجب أن يكون على دراية بها، وهي في حدود اثنتي عشرة.
لا تقلق: عندما يأتي حدث كبير، ستعرف ذلك، وليس فقط لأن TechCrunch يغطيه. سيكون الأمر واضحًا بالنسبة لك كما هو بالنسبة لنا.