يقوم الذكاء الاصطناعي الجديد من DeepMind بإنشاء مقاطع صوتية وحوارات لمقاطع الفيديو

يقول DeepMind، مختبر أبحاث الذكاء الاصطناعي التابع لشركة Google، إنه يقوم بتطوير تقنية الذكاء الاصطناعي لإنشاء مقاطع صوتية لمقاطع الفيديو.

وفي منشور على مدونتها الرسمية، تقول شركة DeepMind إنها ترى التكنولوجيا V2A (اختصار لـ “فيديو إلى صوت”)، باعتبارها جزءًا أساسيًا من أحجية الوسائط التي يولدها الذكاء الاصطناعي. في حين أن الكثير من المؤسسات، بما في ذلك DeepMind، قامت بتطوير نماذج الذكاء الاصطناعي لإنشاء الفيديو، إلا أن هذه النماذج لا يمكنها إنشاء مؤثرات صوتية للمزامنة مع مقاطع الفيديو التي تنشئها.

كتب ديب مايند: “تتقدم نماذج توليد الفيديو بوتيرة مذهلة، لكن العديد من الأنظمة الحالية لا يمكنها سوى توليد مخرجات صامتة”. “تقنية V2A [could] أصبحت طريقة واعدة لإضفاء الحيوية على الأفلام التي تم إنتاجها.”

تأخذ تقنية DeepMind’s V2A وصفًا للموسيقى التصويرية (على سبيل المثال، “قنديل البحر ينبض تحت الماء، والحياة البحرية، والمحيط”) مقترنة بمقطع فيديو لإنشاء موسيقى ومؤثرات صوتية وحتى حوار يتطابق مع شخصيات ونبرة الفيديو، مع وضع علامة مائية بواسطة التزييف العميق لـ DeepMind. -مكافحة تقنية SynthID. يقول DeepMind إن نموذج الذكاء الاصطناعي الذي يعمل على تشغيل V2A، وهو نموذج نشر، تم تدريبه على مجموعة من الأصوات ونصوص الحوار بالإضافة إلى مقاطع الفيديو.

“من خلال التدريب على الفيديو والصوت والتعليقات التوضيحية الإضافية، تتعلم تقنيتنا ربط أحداث صوتية محددة بمشاهد مرئية مختلفة، مع الاستجابة للمعلومات المقدمة في التعليقات التوضيحية أو النصوص”، وفقًا لـ DeepMind.

أمي هي الكلمة حول ما إذا كانت أي من بيانات التدريب محمية بحقوق الطبع والنشر – وما إذا كان منشئو البيانات على علم بعمل DeepMind. لقد تواصلنا مع DeepMind للتوضيح وسنقوم بتحديث هذا المنشور إذا سمعنا ردًا.

أدوات توليد الصوت التي تعمل بالذكاء الاصطناعي ليست جديدة. أصدرت شركة Startup Stability AI واحدة منها في الأسبوع الماضي فقط، وأطلقت ElevenLabs واحدًا في مايو. ولا توجد نماذج لإنشاء مؤثرات صوتية للفيديو. يمكن لمشروع Microsoft إنشاء مقاطع فيديو للحديث والغناء من صورة ثابتة، وقد قامت منصات مثل Pika وGenreX بتدريب نماذج لالتقاط مقطع فيديو وتقديم أفضل تخمين بشأن الموسيقى أو التأثيرات المناسبة في مشهد معين.

لكن DeepMind تدعي أن تقنية V2A الخاصة بها فريدة من نوعها من حيث أنها تستطيع فهم وحدات البكسل الأولية من مقطع فيديو ومزامنة الأصوات الناتجة مع الفيديو تلقائيًا، اختياريًا بدون وصف.

تقنية V2A ليست مثالية، وتقر شركة DeepMind بذلك. نظرًا لأن النموذج الأساسي لم يتم تدريبه على الكثير من مقاطع الفيديو التي تحتوي على عناصر أو تشويهات، فإنه لا ينشئ صوتًا عالي الجودة بشكل خاص لهذه المقاطع. وبشكل عام، الصوت الناتج ليس كذلك ممتاز مقنع؛ ووصفتها زميلتي ناتاشا لوماس بأنها “مجموعة متنوعة من الأصوات النمطية”، ولا أستطيع أن أقول إنني لا أوافق على ذلك.

لهذه الأسباب، ولمنع سوء الاستخدام، تقول شركة DeepMind إنها لن تطلق التكنولوجيا للعامة في أي وقت قريب، هذا إن حدث ذلك.

“للتأكد من أن تقنية V2A الخاصة بنا يمكن أن يكون لها تأثير إيجابي على المجتمع الإبداعي، فإننا نجمع وجهات نظر ورؤى متنوعة من كبار المبدعين وصانعي الأفلام، ونستخدم هذه التعليقات القيمة لإرشاد بحثنا وتطويرنا المستمر،” كتب DeepMind. “قبل أن نفكر في فتح الوصول إليها أمام الجمهور على نطاق أوسع، ستخضع تقنية V2A لدينا لتقييمات واختبارات صارمة للسلامة.”

تقدم DeepMind تقنية V2A الخاصة بها كأداة مفيدة بشكل خاص لأمناء المحفوظات والأشخاص الذين يعملون مع اللقطات التاريخية. لكن الذكاء الاصطناعي التوليدي على هذا المنوال يهدد أيضًا بقلب صناعة السينما والتلفزيون رأسًا على عقب. سوف يتطلب الأمر بعض إجراءات حماية العمال القوية على محمل الجد لضمان أن أدوات الوسائط التوليدية لا تقضي على الوظائف – أو، حسب الحالة، المهن بأكملها.

مرتبط

اكتشاف المزيد من موقع شعاع للمعلوماتية

اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.

الوسوم

sho3a3

0 67 2 دقائق

يقوم الذكاء الاصطناعي الجديد من DeepMind بإنشاء مقاطع صوتية وحوارات لمقاطع الفيديو

معجب بهذه:

مرتبط

اكتشاف المزيد من موقع شعاع للمعلوماتية

sho3a3

اترك تعليقاً إلغاء الرد

تقترح دراسة مجلس الشيوخ 32 مليار دولار “على الأقل” سنويًا لبرامج الذكاء الاصطناعي

يبدو أن النموذج الصيني الجديد لإنتاج الفيديو يفرض رقابة على المواضيع الحساسة سياسيا

يتطلع Conduktor إلى حماية “البيانات السيئة” من تطبيقات الشركة

يطلق الأمير السعودي AI Venture مع وصول Trump و Musk و Altman و Zuckerberg للمؤتمر

الرئيس التنفيذي لشركة Mercury يقوم بإضفاء الطابع الرسمي على الرهانات على مؤسسي المرحلة المبكرة مع صندوق بقيمة 26 مليون دولار

حتى A16Z VCS يقول لا أحد يعرف حقًا ماهية وكيل الذكاء الاصطناعى

تجلب Apple ميزات القمر الصناعي في حالات الطوارئ إلى iPhone 13 مع iOS 18.5

جاريد كابلان المؤسس المشارك للأنثروبولوجيا يأتي إلى جلسات TechCrunch: AI

روابط نصية AA50

يونيو 2024
س	د	ن	ث	أرب	خ	ج
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

شارك هذا الموضوع:

معجب بهذه:

مرتبط

اكتشاف المزيد من موقع شعاع للمعلوماتية

مقالات ذات صلة

اترك تعليقاً إلغاء الرد

تقترح دراسة مجلس الشيوخ 32 مليار دولار “على الأقل” سنويًا لبرامج الذكاء الاصطناعي

يبدو أن النموذج الصيني الجديد لإنتاج الفيديو يفرض رقابة على المواضيع الحساسة سياسيا

يتطلع Conduktor إلى حماية “البيانات السيئة” من تطبيقات الشركة

اكتشاف المزيد من موقع شعاع للمعلوماتية