يوفر الذكاء الاصطناعي الجديد لتوليد الفيديو من Runway، Gen-3، عناصر تحكم محسنة

أصبح السباق نحو الحصول على مقاطع فيديو عالية الجودة تم إنشاؤها بواسطة الذكاء الاصطناعي محتدمًا.

في يوم الاثنين، كشفت شركة Runway، وهي شركة تقوم ببناء أدوات الذكاء الاصطناعي الموجهة نحو منشئي محتوى الأفلام والصور، عن Gen-3 Alpha. يقوم أحدث نموذج للذكاء الاصطناعي للشركة بإنشاء مقاطع فيديو من الأوصاف النصية والصور الثابتة. يقول Runway أن النموذج يقدم تحسينًا “كبيرًا” في سرعة التوليد والدقة مقارنة بنموذج الفيديو الرئيسي السابق لـ Runway، Gen-2، بالإضافة إلى عناصر تحكم دقيقة في بنية وأسلوب وحركة مقاطع الفيديو التي ينشئها.

سيكون الجيل الثالث متاحًا في الأيام المقبلة لمشتركي Runway، بما في ذلك عملاء المؤسسات والمبدعين في برنامج الشركاء المبدعين في Runway.

وكتبت Runway في منشور على مدونتها: “يتفوق Gen-3 Alpha في توليد شخصيات بشرية معبرة مع مجموعة واسعة من الإجراءات والإيماءات والعواطف”. “لقد تم تصميمه لتفسير مجموعة واسعة من الأساليب والمصطلحات السينمائية [and enable] التحولات الخيالية والتأطير الرئيسي الدقيق للعناصر في المشهد.

Gen-3 Alpha له حدوده، بما في ذلك حقيقة أن مدة اللقطات تصل إلى 10 ثوانٍ كحد أقصى. ومع ذلك، يعد Anastasis Germanidis، المؤسس المشارك لشركة Runway، بأن Gen-3 هو النموذج الأول – والأصغر – من بين العديد من نماذج توليد الفيديو التي تأتي في عائلة نماذج الجيل التالي المدربة على البنية التحتية التي تمت ترقيتها.

وقال جيرمانيديس لـ TechCrunch هذا الصباح في مقابلة: “يمكن للنموذج أن يعاني من تفاعلات معقدة بين الشخصيات والكائنات، ولا تتبع الأجيال دائمًا قوانين الفيزياء بدقة”. “سيدعم هذا الطرح الأولي أجيالًا عالية الدقة مدتها 5 و10 ثوانٍ، مع أوقات إنشاء أسرع بشكل ملحوظ من الجيل الثاني. يستغرق إنشاء مقطع مدته 5 ثوانٍ 45 ثانية، ويستغرق إنشاء مقطع مدته 10 ثوانٍ 90 ثانية.

تم تدريب Gen-3 Alpha، مثل جميع نماذج إنشاء الفيديو، على عدد كبير من أمثلة مقاطع الفيديو – والصور – حتى يتمكن من “تعلم” الأنماط في هذه الأمثلة لإنشاء مقاطع جديدة. من أين أتت بيانات التدريب؟ المدرج لن يقول. عدد قليل من بائعي الذكاء الاصطناعي يتطوعون بمثل هذه المعلومات هذه الأيام، ويرجع ذلك جزئيًا إلى أنهم يعتبرون بيانات التدريب ميزة تنافسية وبالتالي يحتفظون بها والمعلومات المتعلقة بها بالقرب من الصندوق.

وقال جيرمانيديس: “لدينا فريق بحث داخلي يشرف على جميع التدريبات لدينا ونستخدم مجموعات بيانات داخلية منسقة لتدريب نماذجنا”. لقد ترك الأمر عند ذلك.

عينة من طراز Runway’s Gen-3. لاحظ أن التشويش والدقة المنخفضة ناتجان عن أداة تحويل الفيديو إلى GIF التي يستخدمها TechCrunch، وليس Gen-3.

اعتمادات الصورة: المدرج

تعد تفاصيل بيانات التدريب أيضًا مصدرًا محتملاً للدعاوى القضائية المتعلقة بالملكية الفكرية إذا تم تدريب البائع على البيانات العامة، بما في ذلك البيانات المحمية بحقوق الطبع والنشر من الويب – وبالتالي مثبط آخر للكشف عن الكثير. ترفض العديد من القضايا التي تشق طريقها إلى المحاكم دفاعات بيانات التدريب على الاستخدام العادل للبائعين، بحجة أن أدوات الذكاء الاصطناعي التوليدية تكرر أنماط الفنانين دون إذن الفنانين وتسمح للمستخدمين بإنشاء أعمال جديدة تشبه أعمال الفنانين الأصلية التي لا يتلقى الفنانون أي مقابل مقابلها.

تناولت شركة Runway قضية حقوق الطبع والنشر إلى حد ما، قائلة إنها تشاورت مع الفنانين في تطوير النموذج. (من هم الفنانين؟ غير واضح.) وهذا يعكس ما أخبرني به جيرمانيديس أثناء وجوده بجانب المدفأة في مؤتمر Disrupt التابع لـ TechCrunch في عام 2023:

وقال: “إننا نعمل بشكل وثيق مع الفنانين لمعرفة أفضل الطرق لمعالجة هذا الأمر”. “نحن نستكشف شراكات البيانات المختلفة لنكون قادرين على تحقيق المزيد من النمو… وبناء الجيل القادم من النماذج.”

وتقول Runway أيضًا إنها تخطط لإصدار Gen-3 مع مجموعة جديدة من الضمانات، بما في ذلك نظام الإشراف لمنع محاولات إنشاء مقاطع فيديو من الصور والمحتوى المحمي بحقوق الطبع والنشر الذي لا يتوافق مع شروط خدمة Runway. يوجد أيضًا نظام مصدر – متوافق مع معيار C2PA، المدعوم من Microsoft وAdobe وOpenAI وغيرها – لتحديد أن مقاطع الفيديو جاءت من Gen-3.

قال جيرمانيديس: “يستخدم نظامنا الداخلي الجديد والمحسّن للإشراف المرئي والنصي الرقابة التلقائية لتصفية المحتوى غير المناسب أو الضار”. “تتحقق مصادقة C2PA من مصدر وأصالة الوسائط التي تم إنشاؤها باستخدام جميع طرز Gen-3. ومع زيادة قدرات النماذج والقدرة على إنشاء محتوى عالي الدقة، سنواصل الاستثمار بشكل كبير في جهود المواءمة والسلامة لدينا.

المدرج Gen-3 — **اعتمادات الصورة:** المدرج

كشفت Runway أيضًا عن شراكتها وتعاونها مع “مؤسسات الترفيه والإعلام الرائدة” لإنشاء إصدارات مخصصة من Gen-3 تسمح بمزيد من “التحكم الأسلوبي” والشخصيات المتسقة، والتي تستهدف “متطلبات فنية وسردية محددة”. وتضيف الشركة: “وهذا يعني أن الشخصيات والخلفيات والعناصر التي تم إنشاؤها يمكن أن تحافظ على مظهر وسلوك متماسك عبر المشاهد المختلفة”.

إحدى المشاكل الرئيسية التي لم يتم حلها في نماذج إنشاء الفيديو هي التحكم، أي الحصول على نموذج لإنشاء فيديو متسق يتماشى مع النوايا الفنية لمنشئ المحتوى. وكما كتب زميلي ديفين كولديوي مؤخراً، فإن الأمور البسيطة في صناعة الأفلام التقليدية، مثل اختيار لون في ملابس الشخصية، تتطلب حلولاً بديلة باستخدام نماذج توليدية لأن كل لقطة يتم إنشاؤها بشكل مستقل عن اللقطات الأخرى. في بعض الأحيان، حتى الحلول البديلة لا تفي بالغرض، مما يترك عملاً يدويًا مكثفًا للمحررين.

جمعت Runway أكثر من 236.5 مليون دولار من المستثمرين، بما في ذلك Google (التي لديها معها اعتمادات الحوسبة السحابية) وNvidia، بالإضافة إلى شركات رأس المال الاستثماري مثل Amplify Partners وFelicis وCoatue. لقد انضمت الشركة بشكل وثيق إلى الصناعة الإبداعية مع نمو استثماراتها في تكنولوجيا الذكاء الاصطناعي التوليدية. تقوم شركة Runway بتشغيل Runway Studios، وهو قسم ترفيهي يعمل كشريك إنتاج لعملاء المؤسسات، ويستضيف مهرجان AI Film Festival، وهو أحد الأحداث الأولى المخصصة لعرض الأفلام التي تم إنتاجها كليًا – أو جزئيًا – بواسطة الذكاء الاصطناعي.

لكن المنافسة تزداد شراسة.

أعلنت شركة Luma الناشئة للذكاء الاصطناعي التوليدي الأسبوع الماضي عن Dream Machine، وهو منشئ فيديو انتشر بسرعة بسبب قدرته على تحريك الميمات. وقبل بضعة أشهر فقط، كشفت شركة Adobe أنها تعمل على تطوير نموذج خاص بها لإنشاء الفيديو تم تدريبه على المحتوى الموجود في مكتبة وسائط Adobe Stock الخاصة بها.

في أماكن أخرى، هناك شركات قائمة مثل Sora من OpenAI، والتي لا تزال مغلقة بإحكام ولكن OpenAI كانت تزرعها مع وكالات التسويق ومخرجي الأفلام المستقلة وهوليوود. (كانت ميرا موراتي، مديرة التكنولوجيا في OpenAI، حاضرة في مهرجان كان السينمائي لعام 2024.) عرض مهرجان تريبيكا لهذا العام – والذي لديه أيضًا شراكة مع Runway لتنظيم الأفلام التي تم إنتاجها باستخدام أدوات الذكاء الاصطناعي – أفلامًا قصيرة تم إنتاجها بالتعاون مع Sora بواسطة مخرجين تم منحهم إمكانية الوصول المبكر.

كما وضعت جوجل أيضًا نموذجها لتوليد الصور، Veo، في أيدي مجموعة مختارة من المبدعين، بما في ذلك دونالد جلوفر (المعروف أيضًا باسم Childish Gambino) ووكالته الإبداعية Gilga، حيث تعمل على إدخال Veo في منتجات مثل YouTube Shorts.

مهما كانت أوجه التعاون المختلفة، فقد أصبح هناك شيء واحد واضح: أدوات الفيديو التوليدية ذات الذكاء الاصطناعي تهدد بقلب صناعة السينما والتلفزيون كما نعرفها.

قال المخرج تايلر بيري مؤخرًا إنه علق التوسعة المخطط لها البالغة 800 مليون دولار لاستوديو الإنتاج الخاص به بعد رؤية ما يمكن أن يفعله سورا. يتوقع جو روسو، مخرج أفلام Marvel مثل “Avengers: Endgame”، أنه في غضون عام، سيكون الذكاء الاصطناعي قادرًا على إنشاء فيلم كامل.

وجدت دراسة أجريت عام 2024 بتكليف من Animation Guild، وهو اتحاد يمثل رسامي الرسوم المتحركة ورسامي الكاريكاتير في هوليوود، أن 75% من شركات إنتاج الأفلام التي اعتمدت الذكاء الاصطناعي قامت بتخفيض الوظائف أو توحيدها أو إلغاءها بعد دمج التكنولوجيا. وتقدر الدراسة أيضًا أنه بحلول عام 2026، سيتم تعطيل أكثر من 100 ألف وظيفة ترفيهية في الولايات المتحدة بسبب الذكاء الاصطناعي التوليدي.

سيتطلب الأمر بعض إجراءات حماية العمال القوية على محمل الجد لضمان أن أدوات إنشاء الفيديو لا تتبع خطى تقنيات الذكاء الاصطناعي التوليدية الأخرى وتؤدي إلى انخفاضات حادة في الطلب على العمل الإبداعي.