تعد منصة إنشاء الفيديو المدعومة بالذكاء الاصطناعي D-ID أحدث شركة تقدم أداة لترجمة مقاطع الفيديو إلى لغات أخرى باستخدام تقنيات الذكاء الاصطناعي. ومع ذلك، في هذه الحالة، يقوم D-ID أيضًا باستنساخ صوت المتحدث وتغيير حركات الشفاه لتتناسب مع الكلمات المترجمة كجزء من عملية تحرير الذكاء الاصطناعي.
تنبع هذه التقنية من عمل D-ID السابق – والذي قد تتذكره من الاتجاه واسع الانتشار قبل بضع سنوات حيث كان المستخدمون يقومون بتحريك صورهم العائلية القديمة، وبعد ذلك أصبحت تلك الصور قادرة على التحدث. على خلفية هذا النجاح، تمكنت الشركة الناشئة من جمع 25 مليون دولار من سلسلة B لجمع التبرعات في عام 2022 بهدف خدمة العدد المتزايد من عملاء المؤسسات في الولايات المتحدة الذين كانوا يستخدمون تقنيتها لإنتاج مقاطع فيديو مدعومة بالذكاء الاصطناعي.
بفضل تقنية AI Video Translate التي أطلقتها الشركة الآن، والتي يتم تقديمها حاليًا لمشتركي D-ID مجانًا، يمكن لمنشئي المحتوى ترجمة مقاطع الفيديو الخاصة بهم تلقائيًا إلى لغات أخرى لمساعدتهم على توسيع نطاق وصولهم. في المجمل، هناك 30 لغة متاحة حاليًا، بما في ذلك العربية والماندرين واليابانية والهندية والإسبانية والفرنسية وغيرها. يبدأ اشتراك D-ID بسعر 56 دولارًا سنويًا لأرخص خطة وأقل عدد من الاعتمادات لاستخدامها في ميزات الذكاء الاصطناعي ثم يصل إلى 1293 دولارًا سنويًا قبل التحول إلى تسعير المؤسسة.
تقترح D-ID أن تقنية الفيديو AI الجديدة يمكن أن تساعد العملاء على توفير تكاليف الترجمة عند توسيع نطاق حملاتهم إلى جمهور عالمي في مجالات مثل التسويق والترفيه ووسائل التواصل الاجتماعي. وستتنافس هذه التقنية مع الحلول الأخرى في مجالي الدبلجة والفيديو المدعم بالذكاء الاصطناعي.
على مدى سنوات، سهّلت تقنيات الدبلجة على مشاهدي الفيديو الاستماع إلى الصوت بلغتهم الخاصة، ولكن غالبًا ما كان يتعذر على منشئي المحتوى الصغار الوصول إليه. لقد تغير هذا مع قيام الشركات بتحسين الوصول إلى التكنولوجيا. على سبيل المثال، أصدر موقع YouTube ميزة صوتية متعددة اللغات مصممة لمساعدة منشئي المحتوى على التواصل مع جمهور أوسع من خلال ترجمة مقاطع الفيديو الخاصة بهم إلى لغات أخرى. كان منشئ المحتوى الشهير MrBeast (Jimmy Donaldson) من بين أوائل المستخدمين لهذه التقنية، حيث استخدم التكنولوجيا لجلب العديد من مقاطع الفيديو الشهيرة الخاصة به إلى 11 لغة أخرى.
ومع الذكاء الاصطناعي، تتوسع أيضًا القدرة على إنشاء الأصوات أو ترجمتها أو استنساخها. أعلنت Microsoft هذا العام أنها ستستخدم الذكاء الاصطناعي لترجمة ودبلجة مقاطع فيديو YouTube وغيرها أثناء المشاهدة. في شهر يوليو، كشفت منصة Vimeo للمبدعين عن أدوات لترجمة الصوت والتسميات التوضيحية والقيام بذلك عن طريق تكرار صوت المتحدث باستخدام تقنية الذكاء الاصطناعي. تقدم العديد من الشركات أيضًا أدوات استنساخ الصوت أو ترجمة الذكاء الاصطناعي (أو في بعض الأحيان كليهما)، بما في ذلك تلك المقدمة من Descript وElevenLabs وSpeechify وVeed وCamb.ai وCaptions.ai وAkool، على سبيل المثال لا الحصر، بالإضافة إلى الأدوات التي تتيح لك قم بإنشاء مقاطع فيديو باستخدام الصور الرمزية للذكاء الاصطناعي التي يمكنها التحدث بعشرات اللغات، مثل تلك الخاصة بـ HeyGen و Deepbrain AI وغيرها.
مكتبات الذكاء الاصطناعي للدبلجة ومزامنة الشفاه، مثل Wav2lip، سهّلت أيضًا على الشركات الناشئة إنشاء هذه الأنواع من الأدوات أثناء الترويج للمبدعين بأنهم يجعلون استخدام تكنولوجيا الذكاء الاصطناعي أسهل، وربما أقل تكلفة. (يعمل النموذج الخاص الذي تم تطويره حديثًا لشركة D-ID والمسمى Rosetta-1 على تشغيل ترجمة الفيديو بالذكاء الاصطناعي.)
تقول D-ID أن تقنية ترجمة الفيديو الجديدة الخاصة بها ستكون متاحة من خلال D-ID Studio وواجهة برمجة التطبيقات (API) الخاصة بها. يتم تقديم نسخة تجريبية مدتها شهر واحد، كما تتوفر المزيد من العروض التوضيحية على موقعها الإلكتروني.
وتقول الشركة إن مدة مقاطع الفيديو يمكن أن تتراوح بين 10 ثوانٍ و5 دقائق، ويجب أن يكون حجم الملف أقل من 2 جيجابايت. تعمل هذه الميزة مع شخص واحد فقط في الإطار، وللحصول على أفضل نتيجة، يجب أن يواجه الكاميرا ويكون وجهه مرئيًا في جميع الأوقات.