Dumme ، شركة ناشئة تستخدم الذكاء الاصطناعي في الاستخدام العملي في تحرير الفيديو ، تولد بالفعل طلبًا قبل الانفتاح على الجمهور. تمتلك الشركة المدعومة من شركة Y Combinator المئات من منشئي الفيديو الذين يختبرون منتجها ، والذي يستفيد من الذكاء الاصطناعي لإنشاء مقاطع فيديو قصيرة من محتوى YouTube ، وقائمة انتظار تضم أكثر من 20000 إطلاق مسبق ، كما تقول. باستخدام مزيج من كل من نماذج الذكاء الاصطناعي المسجلة الملكية والحالية ، يعد Dumme أنه لا يمكنه توفير وقت التحرير فحسب ، بل أيضًا – وإليك مطالبته الكبيرة – القيام بعمل أفضل من القوى العاملة المتعاقد عليها (البشرية) التي غالبًا ما تُكلف بمزيد من الوضيعة وظائف تحرير الفيديو ، مثل قطع المحتوى الطويل للنشر على منصات قصيرة مثل YouTube شورتات أو TikTok أو Instagram Reels.
قال مروان دراي ، المؤسس المشارك والرئيس التنفيذي لشركة Dumme ، الذي تأسس في يناير 2022 ومشارك في برنامج تسريع بدء التشغيل Y Combinator’s Winter 2022 ، إنه كان يركز في الأصل على بناء محرك بحث للفيديو. ولكن منذ حوالي ستة أشهر ، أدرك الفريق أن المنتج الأفضل قد يكون إعادة توظيف نماذج الذكاء الاصطناعي نفسها التي كانوا يطورونها لتعديل مقاطع الفيديو بدلاً من ذلك.
انضم إلى مؤسسي الشركة Will Dahlstrom (CPO) و Jordan Brannan (CTO) ، وجميعهم يتمتعون بخلفيات الذكاء الاصطناعي ، أدرك Drai أن Dumme ربما يكون قد وصل إلى السوق المناسب للمنتج بعد أن أصبح تطبيقهم فيروسيًا ، مما أدى إلى تعطل خوادمهم.
يوضح دراي: “لم نتوقع حقًا أنه سيحصل على قدر كبير من الجذب أو أي شيء آخر ، لذلك وضعنا شيئًا ما هناك”. “ثم ما حدث هو أنه بين عشية وضحاها ، استيقظنا على خوادم محملة بشكل زائد – مثل ، لم ينجح شيء في الواقع. لذلك قمنا بإزالة كل شيء وقمنا بالفعل بتجميع نوع من قائمة الانتظار “، يتابع. “في صباح اليوم التالي ، ربما استيقظنا ما يصل إلى 5000 شخص هناك ، وهو أمر مثير للاهتمام.”
اكتشف الفريق لاحقًا أن أحد منشئي TikTok قد نشر مقطع فيديو قصيرًا حول المنتج ، مما أدى إلى تدفق حركة المرور إلى موقعهم.
يلاحظ دراي: “في الواقع لم يهدأ أبدًا من ذلك”.
ناشد المنتج ، الذي يُلفظ “وهمي” ، المبدعين لأنه يهدف إلى تبسيط وتسريع العمل الذي ينطوي عليه تحرير الفيديو.
استخدام Dumme بسيط كما يوحي الاسم. للبدء ، يلصق المستخدم رابط فيديو YouTube ، ثم ينقر على “إنشاء” وسيقوم الذكاء الاصطناعي بإخراج عدد من مقاطع الفيديو القصيرة التي تعرض النقاط البارزة من هذا المحتوى المبتلع. تقول الشركة إنها تستخدم YouTube كمصدر ، بدلاً من دعم لقطات الفيديو الخام ، من أجل الاستعانة بمصادر خارجية للإشراف على المحتوى – أي ، إذا كان مسموحًا به على YouTube ، فهذا مسموح به في Dumme.
يعتمد وقت المعالجة وعدد المقاطع الناتجة على طول الفيديو الأصلي.
ولكن على سبيل المثال ، قد تستغرق معالجة بث الفيديو لمدة ساعة حوالي 20 دقيقة وستبدأ في تلقي المقاطع بعد حوالي خمس دقائق ، كما يقول دراي. عند اكتماله ، يمكن لمنشئي المحتوى تنزيل مقاطع الفيديو ، التي تقل مدتها عن 60 ثانية افتراضيًا ، وتحميلها على أي نظام أساسي يدعم المحتوى القصير ، مثل YouTube شورتات ، وكذلك منصات أخرى ، مثل Reels أو TikTok.
كيف يعمل كل هذا على الواجهة الخلفية ، بالطبع ، أكثر تعقيدًا. تقول الشركة إن Dumme ، في البداية ، سيتعلم قدر المستطاع من الفيديو المصدر عبر البيانات الوصفية. ثم يقوم بنسخ الفيديو ويحاول فهم دلالات ما يقال أثناء النظر أيضًا في الإطارات لمحاولة فك تشفير مشاعر الشخص المتحدث. ترتبط هذه النتائج وتمريرها إلى نموذج لغوي يحاول تحديد أجزاء الفيديو التي تستحق القطع. ثم يتم تسليم ذلك إلى طراز آخر يتتبع مكبرات الصوت النشطة ويتعامل مع الاقتصاص.
تقول Dumme إنها تعمل مع نماذج AI الحالية مثل GPT-4 ، وهي نسخة مضبوطة بدقة من Whisper ، وغيرها من النماذج التي تم إنشاؤها داخليًا – مثل النموذج الذي يتتبع مكبرات الصوت النشطة في إطار فيديو. تم تدريب أحد نماذجها أيضًا على مجموعة من شورتات YouTube لتعلم ما الذي يجعل فتحًا جيدًا لجذب المشاهدين. وعلى الرغم من أنه لم يتم نشره بعد ، يقوم الفريق أيضًا بتجربة نموذج مفتوح المصدر ، LaViLa من Facebook Research ، لفهم سياق الفيديو بشكل أفضل.
يتم تنفيذ عمل الذكاء الاصطناعي على CoreWeave ، مزود GPU Cloud ، وليس AWS ، نظرًا لأنه ميسور التكلفة ، كما تخبرنا الشركة.
نظرًا لأن Dumme يعتمد على الذكاء الاصطناعي الذي يعالج الكلمات المنطوقة ، فإن التقنية ليست مناسبة لأشياء مثل مقاطع فيديو اللعب الطويلة أو غيرها من الأشياء التي لا يتحدث فيها الناس. يقول دراي إن الشركة الناشئة تستهدف مبدئيًا منشئي المحتوى والبودكاست والوكالات على YouTube – ويعتقدون أن الأخيرة ستكون أفضل رهان لتحقيق الدخل من المنتج.
يوضح دراي أن الوكالات اليوم غالبًا ما تستعين بمصادر خارجية لهذا النوع من العمل بنتائج ناجحة أو غير صحيحة.
“إنهم يدفعون فقط للمقاولين في الولايات القضائية الرخيصة لتعديل المحتوى الخاص بهم. والمشكلة هي أنها لا تزال باهظة الثمن بالفعل وتستغرق الكثير من الوقت – إنها تستغرق أسابيع ، وليس دقائق ، “كما يقول.
عندما سُئل عن شعوره حيال ابتكار تقنية من شأنها أن تجعل الناس في الواقع عاطلين عن العمل ، لم يكن دراي قلقًا.
“الطريقة التي أفكر بها هي ، في النهاية … أعتقد أن هذا يشبه إخباري أن معلمي الرياضيات سيفعلون ذلك [be put] عاطل عن العمل لأن هناك شيء يسمى آلة حاسبة … “، يشرح. “الناس سوف يتأقلمون. ومن ثم سيكون هناك شخص ما يعلمك عن الآلة الحاسبة ، أليس كذلك؟ لذا أعتقد أنها مجرد مسألة التكيف مع هذا ، يقول دراي.
في الوقت الحالي ، يشمل السعر الذي يتم النظر فيه المستويات التي تدفع فيها الشركة 0.40 دولارًا لكل دقيقة من معالجة الفيديو ، بينما قد يختار صغار المبدعين بدلاً من ذلك اشتراكًا شهريًا بحد أقصى 10 ساعات من المحتوى شهريًا. (قد تتغير هذه الأرقام.) أثناء الاختبار ، كان المنتج مجانيًا للاستخدام.
استخدم المستخدمون الأوائل Dumme في مجموعة متنوعة من التعديلات ، بما في ذلك إنشاء مقاطع من ملفات الفيديو الصوتية لنشرها على الشورتات ، بالإضافة إلى تقليل مقاطع الفيديو الجديدة الأخرى وتصفح كتالوجاتهم الخلفية.
يبدو أن المنتج قادر على المنافسة مع تقنيات الذكاء الاصطناعي الأخرى في السوق ، بما في ذلك تلك من شركة Jellysmack المنشئة ، والتي كانت تستفيد من الذكاء الاصطناعي لتحويل مقاطع فيديو YouTube الطويلة إلى مقاطع فيديو أقصر ، عن طريق قصها ، وتغيير حجمها ، وتحسينها لمنصات محددة – a نتيجة الاستحواذ على Kamua في عام 2021. تتضمن الأدوات الأخرى التي تقوم بعمل مماثل أشياء مثل Opus Clip و Vidyo.ai و Detail و TubeBuddy و Wisecut وغيرها. إلى أي مدى ستنجح Dumme أو تفشل في التفوق على المنافسين في جودة العمل والتكلفة – المقاييس التي لم يتم تحديدها بعد.
لكن بعض المستثمرين يراهنون على Dumme. قبل الإطلاق ، جمعت الشركة الناشئة مبلغ 3.4 مليون دولار من أول دفعة من Y Combinator و Caffeinated Capital و Max و Nellie Levchin (من خلال SciFi VC) ، و Suhail Doshi ، و Nico Chinot ، و Protocol Labs ، و Chris Puscasiu ، وغيرهم من الملائكة.
نظرًا للاهتمام وقائمة الانتظار الكبيرة ، يقول Dumme إنه يهدف إلى ضم حوالي 500 شخص كل أسبوع. يمكن لقراء TechCrunch القفز على الخط باستخدام رمز الدعوة TECHCRUNCH حتى تنفد الفتحات.