ربما لا تعرف Viggle AI، لكن من المحتمل أنك شاهدت الميمات واسعة الانتشار التي أنشأها. تعد شركة الذكاء الاصطناعي الكندية الناشئة مسؤولة عن عشرات مقاطع الفيديو التي تم إعادة مزجها لمغني الراب Lil Yachty وهو يقفز على خشبة المسرح في مهرجان موسيقي صيفي. في أحد مقاطع الفيديو، تم استبدال Lil Yachty بـ Joaquin’s Phoenix’s the Joker. وفي صورة أخرى، بدا يسوع وكأنه يُثير الحشود. قام المستخدمون بإنشاء إصدارات لا تعد ولا تحصى من هذا الفيديو، ولكن شركة ناشئة تعمل بالذكاء الاصطناعي كانت تغذي الميمات. ويقول الرئيس التنفيذي لشركة Viggle إن مقاطع الفيديو على YouTube تغذي نماذج الذكاء الاصطناعي الخاصة بها.
قامت Viggle بتدريب نموذج أساسي للفيديو ثلاثي الأبعاد، JST-1، للحصول على “فهم حقيقي للفيزياء”، كما تدعي الشركة في بيانها الصحفي. يقول Hang Chu، الرئيس التنفيذي لشركة Viggle، إن الاختلاف الرئيسي بين Viggle ونماذج فيديو الذكاء الاصطناعي الأخرى هو أن Viggle يسمح للمستخدمين بتحديد الحركة التي يريدون أن تقوم بها الشخصيات. غالبًا ما تقوم نماذج فيديو الذكاء الاصطناعي الأخرى بإنشاء حركات شخصية غير واقعية لا تلتزم بقوانين الفيزياء، لكن تشو يدعي أن نماذج Viggle مختلفة.
وقال تشو في إحدى المقابلات: “نحن نقوم بشكل أساسي ببناء نوع جديد من محركات الرسومات، ولكن باستخدام الشبكات العصبية فقط”. “النموذج نفسه مختلف تمامًا عن مولدات الفيديو الموجودة، والتي تعتمد بشكل أساسي على البكسل، ولا تفهم حقًا بنية وخصائص الفيزياء. تم تصميم نموذجنا بحيث يتمتع بمثل هذا الفهم، ولهذا السبب كان أفضل بكثير من حيث إمكانية التحكم وكفاءة التوليد.
لإنشاء فيديو للجوكر بشخصية Lil Yachty، على سبيل المثال، ما عليك سوى تحميل الفيديو الأصلي (Lil Yachty وهو يرقص على المسرح) وصورة للشخصية (الجوكر) للقيام بهذه الحركة. وبدلاً من ذلك، يمكن للمستخدمين تحميل صور الشخصيات إلى جانب المطالبات النصية مع تعليمات حول كيفية تحريكها. كخيار ثالث، يتيح Viggle للمستخدمين إنشاء شخصيات متحركة من البداية باستخدام المطالبات النصية وحدها.
لكن الميمات لا تمثل سوى نسبة صغيرة من مستخدمي Viggle؛ يقول تشو إن النموذج شهد اعتماداً واسع النطاق كأداة تصور للمبدعين. مقاطع الفيديو بعيدة كل البعد عن المثالية – فهي مهتزة والوجوه خالية من التعبير – لكن تشو يقول إنه أثبت فعاليته بالنسبة لصانعي الأفلام ورسامي الرسوم المتحركة ومصممي ألعاب الفيديو لتحويل أفكارهم إلى شيء مرئي. في الوقت الحالي، تقوم نماذج Viggle بإنشاء الشخصيات فقط، لكن Chu يأمل في تمكين مقاطع فيديو أكثر تعقيدًا لاحقًا.
تقدم Viggle حاليًا نسخة مجانية محدودة من نموذج الذكاء الاصطناعي الخاص بها على Discord وتطبيق الويب الخاص بها. تقدم الشركة أيضًا اشتراكًا بقيمة 9.99 دولارًا لزيادة السعة، وتمنح بعض المبدعين وصولاً خاصًا من خلال برنامج المبدعين. يقول الرئيس التنفيذي إن Viggle يتحدث مع استوديوهات الأفلام وألعاب الفيديو حول ترخيص التكنولوجيا، لكنه يشهد أيضًا اعتمادها بين رسامي الرسوم المتحركة المستقلين ومنشئي المحتوى.
أعلنت Viggle يوم الاثنين أنها جمعت سلسلة A بقيمة 19 مليون دولار بقيادة Andreessen Horowitz بمشاركة Two Small Fish. تقول الشركة الناشئة إن هذه الجولة ستساعد Viggle على التوسع وتسريع تطوير المنتجات وتوسيع فريقها. أخبرت Viggle موقع TechCrunch أنها تتعاون مع Google Cloud، من بين موفري الخدمات السحابية الآخرين، لتدريب وتشغيل نماذج الذكاء الاصطناعي الخاصة بها. غالبًا ما تتضمن شراكات Google Cloud هذه إمكانية الوصول إلى مجموعات GPU وTPU، ولكن عادةً لا تتضمن مقاطع فيديو YouTube لتدريب نماذج الذكاء الاصطناعي عليها.
بيانات التدريب
خلال مقابلة TechCrunch مع Chu، سألنا عن البيانات التي تم تدريب نماذج فيديو الذكاء الاصطناعي الخاصة بـ Viggle عليها.
“حتى الآن كنا نعتمد على البيانات المتاحة للعامة”، قال تشو، ناقلًا سطرًا مشابهًا لما أجابته ميرا موراتي، مديرة التكنولوجيا في OpenAI، بشأن بيانات تدريب Sora.
عند سؤاله عما إذا كانت مجموعة بيانات التدريب الخاصة بـ Viggle تتضمن مقاطع فيديو على موقع YouTube، أجاب Chu بوضوح: “نعم”.
قد يكون ذلك مشكلة. في أبريل، صرح نيل موهان، الرئيس التنفيذي لموقع YouTube، لبلومبرج أن استخدام مقاطع فيديو YouTube لتدريب مولد تحويل النص إلى فيديو يعمل بالذكاء الاصطناعي سيكون “انتهاكًا واضحًا” لشروط خدمة النظام الأساسي. كانت التعليقات في سياق احتمال استخدام OpenAI لمقاطع فيديو YouTube لتدريب Sora.
وأوضح موهان أن جوجل، التي تمتلك موقع يوتيوب، قد يكون لديها عقود مع بعض المبدعين لاستخدام مقاطع الفيديو الخاصة بهم في مجموعات البيانات التدريبية لـ Google DeepMind’s Gemini. ومع ذلك، لا يُسمح بحصاد الفيديو من المنصة، وفقًا لشروط خدمة موهان ويوتيوب، دون الحصول على إذن مسبق من الشركة.
بعد مقابلة TechCrunch مع الرئيس التنفيذي لشركة Viggle، أرسل متحدث باسم Viggle بريدًا إلكترونيًا للتراجع عن بيان Chu، وأخبر TechCrunch أن الرئيس التنفيذي “تحدث مبكرًا جدًا فيما يتعلق بما إذا كانت Viggle تستخدم بيانات YouTube كتدريب. في الحقيقة، Hang/Viggle غير قادرة على مشاركة تفاصيل بيانات التدريب الخاصة بها.”
ومع ذلك، أشرنا إلى أن تشو قد فعل ذلك بالفعل بشكل رسمي، وطلبنا بيانًا واضحًا حول هذه المسألة. أكد المتحدث باسم Viggle في رده أن شركة الذكاء الاصطناعي الناشئة تتدرب على مقاطع فيديو YouTube:
تستفيد Viggle من مجموعة متنوعة من المصادر العامة، بما في ذلك YouTube، لإنشاء محتوى الذكاء الاصطناعي. لقد تم تنظيم بيانات التدريب الخاصة بنا وتحسينها بعناية، مما يضمن الامتثال لجميع شروط الخدمة طوال العملية. نحن نعطي الأولوية للحفاظ على علاقات قوية مع منصات مثل YouTube، ونحن ملتزمون باحترام شروطها من خلال تجنب الكميات الهائلة من التنزيلات وأي إجراءات أخرى قد تنطوي على تنزيلات فيديو غير مصرح بها.
يبدو أن هذا النهج في الامتثال يتعارض مع تعليقات موهان في أبريل بأن مجموعة مقاطع الفيديو على موقع YouTube ليست مصدرًا عامًا. لقد تواصلنا مع المتحدثين الرسميين باسم YouTube وGoogle، لكننا لم نتلق ردًا بعد.
تنضم الشركة الناشئة إلى الآخرين في المنطقة الرمادية في استخدام YouTube كبيانات تدريبية. تم الإبلاغ عن أن الكثير من مطوري نماذج الذكاء الاصطناعي – بما في ذلك OpenAI وNvidia وApple وAnthropic – يستخدمون نسخًا أو مقاطع فيديو على YouTube للتدريب. إنه السر القذر في وادي السيليكون، وهو ليس سرًا للغاية: من المحتمل أن الجميع يفعل ذلك. ما هو نادر في الواقع هو قول ذلك بصوت عالٍ.
اكتشاف المزيد من موقع شعاع للمعلوماتية
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.