حققت Meta نجاحًا واضحًا في العام الماضي مع Segment Anything، وهو نموذج للتعلم الآلي يمكنه تحديد وتحديد أي شيء في الصورة بسرعة وبشكل موثوق. الجزء الثاني، الذي ظهر لأول مرة الرئيس التنفيذي مارك زوكربيرج على خشبة المسرح يوم الاثنين في SIGGRAPH، يأخذ النموذج إلى مجال الفيديو، مما يوضح مدى سرعة تحرك هذا المجال.
التجزئة هو المصطلح الفني عندما ينظر نموذج الرؤية إلى الصورة ويختار الأجزاء: “هذا كلب، هذه شجرة خلف الكلب” على أمل، وليس “هذه شجرة تنمو من كلب”. لقد كان هذا يحدث منذ عقود، لكنه أصبح مؤخرًا أفضل وأسرع بكثير، حيث أصبحت شريحة أي شيء خطوة كبيرة إلى الأمام.
يعد الجزء Anything 2 (SA2) بمثابة متابعة طبيعية لأنه ينطبق أصلاً على الفيديو وليس فقط الصور الثابتة؛ على الرغم من أنه يمكنك، بالطبع، تشغيل النموذج الأول على كل إطار من مقاطع الفيديو بشكل فردي، إلا أنه ليس سير العمل الأكثر كفاءة.
“يستخدم العلماء هذه الأشياء لدراسة الشعاب المرجانية والموائل الطبيعية، وأشياء من هذا القبيل. وقال زوكربيرج في محادثة مع الرئيس التنفيذي لشركة Nvidia Jensen Huang: “لكن أن تكون قادرًا على القيام بذلك في الفيديو وجعله صفرًا وإخباره بما تريد، فهذا أمر رائع جدًا”.
تعد معالجة الفيديو، بالطبع، أكثر تطلبًا من الناحية الحسابية، وهي شهادة على التقدم الذي تم إحرازه عبر الصناعة من حيث الكفاءة التي يمكن لـ SA2 تشغيلها دون ذوبان مركز البيانات. بالطبع، لا يزال نموذجًا ضخمًا يحتاج إلى أجهزة جادة للعمل، ولكن التجزئة السريعة والمرنة كانت مستحيلة عمليًا حتى قبل عام.
سيكون النموذج، مثل النموذج الأول، مفتوحًا ومجانيًا للاستخدام، ولا توجد كلمة عن إصدار مستضاف، وهو ما تقدمه شركات الذكاء الاصطناعي هذه أحيانًا. ولكن هناك عرض تجريبي مجاني.
وبطبيعة الحال، يتطلب مثل هذا النموذج الكثير من البيانات لتدريبه، وتقوم Meta أيضًا بإصدار قاعدة بيانات كبيرة مشروحة تضم 50000 مقطع فيديو أنشأتها لهذا الغرض فقط. في الورقة التي تصف SA2، تم أيضًا استخدام قاعدة بيانات أخرى تضم أكثر من 100000 مقطع فيديو “متاح داخليًا” للتدريب، ولم يتم نشر هذا الفيديو للعامة – لقد طلبت من Meta المزيد من المعلومات حول ماهية هذا الفيديو ولماذا لم يتم إصداره . (نعتقد أن مصدرها هو الملفات الشخصية العامة على Instagram وFacebook.)
لقد كانت Meta رائدة في مجال الذكاء الاصطناعي “المفتوح” منذ عامين، على الرغم من أنها في الواقع (كما رأى زوكربيرج في المحادثة) كانت تفعل ذلك لفترة طويلة، باستخدام أدوات مثل PyTorch. لكن في الآونة الأخيرة، أصبحت LLaMa وSegment Anything وعدد قليل من النماذج الأخرى التي يتم طرحها بحرية بمثابة حاجز يمكن الوصول إليه نسبيًا لأداء الذكاء الاصطناعي في تلك المجالات، على الرغم من أن “انفتاحها” هو موضوع نقاش.
ذكر زوكربيرج أن الانفتاح لا ينبع تمامًا من طيبة قلوبهم في ميتا، لكن هذا لا يعني أن نواياهم غير نقية:
“هذا لا يشبه مجرد برنامج يمكنك إنشاؤه، بل أنت بحاجة إلى نظام بيئي حوله. لن يعمل الأمر بشكل جيد تقريبًا إذا لم نفتحه، أليس كذلك؟ نحن لا نفعل هذا لأننا أشخاص محبون للغير، على الرغم من أنني أعتقد أن هذا سيكون مفيدًا للنظام البيئي – نحن نفعل ذلك لأننا نعتقد أن هذا سيجعل الشيء الذي نبنيه أفضل.”
ومن المؤكد أنه سيتم استخدامه بشكل جيد، على أي حال. تحقق من جيثب هنا.
اكتشاف المزيد من موقع شعاع للمعلوماتية
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.