بدأت OpenAI في طرح الوضع الصوتي المتقدم لـ ChatGPT يوم الثلاثاء، مما يمنح المستخدمين وصولهم الأول إلى الاستجابات الصوتية الواقعية للغاية لـ GPT-4o. سيكون إصدار ألفا متاحًا لمجموعة صغيرة من مستخدمي ChatGPT Plus اليوم، وتقول OpenAI إن الميزة سيتم طرحها تدريجيًا لجميع مستخدمي Plus في خريف عام 2024.
عندما عرضت OpenAI صوت GPT-4o لأول مرة في شهر مايو، صدمت هذه الميزة الجماهير باستجاباتها السريعة وتشابهها الغريب مع صوت الإنسان الحقيقي – صوت بشري على وجه الخصوص. ويشبه صوت سكاي صوت سكارليت جوهانسون، الممثلة التي تقف وراء المساعد الاصطناعي في فيلم “هي”. بعد وقت قصير من العرض التوضيحي لـ OpenAI، قالت جوهانسون إنها رفضت استفسارات متعددة من الرئيس التنفيذي سام التمان لاستخدام صوتها، وبعد رؤية العرض التوضيحي لـ GPT-4o، عينت مستشارًا قانونيًا للدفاع عن صورتها. نفى OpenAI استخدام صوت يوهانسون، لكنه أزال الصوت الموضح في العرض التوضيحي لاحقًا. وفي يونيو/حزيران، قالت شركة OpenAI إنها ستؤجل إصدار الوضع الصوتي المتقدم لتحسين إجراءات السلامة الخاصة بها.
وبعد مرور شهر واحد، انتهى الانتظار (نوعًا ما). تقول OpenAI إن إمكانات مشاركة الفيديو والشاشة التي تم عرضها خلال تحديث الربيع الخاص بها لن تكون جزءًا من نسخة ألفا هذه، وسيتم إطلاقها في “تاريخ لاحق”. في الوقت الحالي، لا يزال الإصدار التجريبي من GPT-4o الذي أذهل الجميع مجرد عرض توضيحي، ولكن سيتمكن بعض المستخدمين المميزين الآن من الوصول إلى ميزة ChatGPT الصوتية المعروضة هناك.
يمكن لـ ChatGPT الآن التحدث والاستماع
ربما تكون قد قمت بالفعل بتجربة وضع الصوت المتوفر حاليًا في ChatGPT، لكن OpenAI تقول إن وضع الصوت المتقدم مختلف. استخدم الحل القديم لـ ChatGPT للصوت ثلاثة نماذج منفصلة: واحد لتحويل صوتك إلى نص، وGPT-4 لمعالجة مطالبتك، ثم ثالث لتحويل نص ChatGPT إلى صوت. لكن GPT-4o متعدد الوسائط، وقادر على معالجة هذه المهام دون مساعدة النماذج المساعدة، مما يؤدي إلى إنشاء محادثات ذات زمن استجابة أقل بكثير. تدعي OpenAI أيضًا أن GPT-4o يمكنه استشعار النغمات العاطفية في صوتك، بما في ذلك الحزن أو الإثارة أو الغناء.
في هذا البرنامج التجريبي، سيتمكن مستخدمو ChatGPT Plus من رؤية مدى واقعية وضع الصوت المتقدم لـ OpenAI. لم يتمكن TechCrunch من اختبار الميزة قبل نشر هذه المقالة، ولكننا سنراجعها عندما نتمكن من الوصول إليها.
تقول OpenAI إنها تطلق صوت ChatGPT الجديد تدريجيًا لمراقبة استخدامه عن كثب. سيتلقى الأشخاص في مجموعة ألفا تنبيهًا في تطبيق ChatGPT، متبوعًا برسالة بريد إلكتروني تحتوي على تعليمات حول كيفية استخدامه.
وفي الأشهر التي تلت العرض التجريبي لـ OpenAI، قالت الشركة إنها اختبرت القدرات الصوتية لـ GPT-4o مع أكثر من 100 من أعضاء الفريق الأحمر الخارجي الذين يتحدثون 45 لغة مختلفة. وتقول OpenAI إن تقريرًا عن جهود السلامة هذه سيصدر في أوائل أغسطس.
وتقول الشركة إن الوضع الصوتي المتقدم سيقتصر على الأصوات الأربعة المحددة مسبقًا في ChatGPT – Juniper وBreeze وCove وEmber – والتي تم إنشاؤها بالتعاون مع ممثلين صوتيين مدفوعي الأجر. لم يعد صوت Sky الموضح في العرض التوضيحي لشهر مايو لـ OpenAI متاحًا في ChatGPT. يقول المتحدث باسم OpenAI، ليندسي ماكالوم، “لا يمكن لـ ChatGPT انتحال أصوات الآخرين، سواء الأفراد أو الشخصيات العامة، وسوف يحظر المخرجات التي تختلف عن أحد هذه الأصوات المحددة مسبقًا.”
تحاول OpenAI تجنب الجدل حول التزييف العميق. في شهر يناير، تم استخدام تقنية استنساخ الصوت الخاصة بشركة ElevenLabs الناشئة للذكاء الاصطناعي لانتحال شخصية الرئيس بايدن، وخداع الناخبين الأساسيين في نيو هامبشاير.
تقول OpenAI أيضًا إنها قدمت مرشحات جديدة لمنع بعض الطلبات لإنشاء موسيقى أو أي صوت آخر محمي بحقوق الطبع والنشر. في العام الماضي، وقعت شركات الذكاء الاصطناعي في مشاكل قانونية بسبب انتهاك حقوق الطبع والنشر، وأطلقت النماذج الصوتية مثل GPT-4o العنان لفئة جديدة تمامًا من الشركات التي يمكنها تقديم شكوى. على وجه الخصوص، شركات التسجيل، التي لديها تاريخ في رفع الدعاوى القضائية، وقد رفعت بالفعل دعوى قضائية ضد مولدي أغاني الذكاء الاصطناعي Suno وUdio.