أصدرت OpenAI أخيرًا إمكانات الفيديو في الوقت الفعلي لـ ChatGPT والتي تم عرضها منذ ما يقرب من سبعة أشهر.
وفي يوم الخميس، خلال بث مباشر، قالت الشركة إن وضع الصوت المتقدم، وهي ميزة المحادثة الشبيهة بالإنسان لـ ChatGPT، بدأت تكتسب رؤية واضحة. باستخدام تطبيق ChatGPT، يمكن للمستخدمين المشتركين في ChatGPT Plus أو Pro توجيه هواتفهم الذكية نحو الأشياء وجعل ChatGPT يستجيب في الوقت الفعلي تقريبًا.
يمكن أيضًا لوضع الصوت المتقدم مع الرؤية فهم ما هو موجود على شاشة الجهاز، عبر مشاركة الشاشة. يمكنه شرح قوائم الإعدادات المختلفة أو تقديم اقتراحات بشأن مسألة رياضية.
في عرض توضيحي حديث لبرنامج 60 دقيقة على قناة CNN، كان لدى رئيس OpenAI، جريج بروكمان، وضع الصوت المتقدم مع اختبار الرؤية أندرسون كوبر حول مهاراته في علم التشريح. وبينما كان كوبر يرسم أجزاء الجسم على السبورة، تمكن ChatGPT من “فهم” ما كان يرسمه.
قال المساعد: “الموقع محدد”. “الدماغ موجود هناك في الرأس. أما بالنسبة للشكل، فهي بداية جيدة. الدماغ هو أكثر بيضاويًا.
في نفس العرض التوضيحي، ارتكب وضع الصوت المتقدم مع الرؤية خطأً في مشكلة هندسية، مما يشير إلى أنه عرضة للهلوسة.
لقد تم تأجيل وضع الصوت المتقدم مع الرؤية عدة مرات، ويرجع ذلك جزئيًا إلى أن OpenAI أعلنت عن الميزة قبل وقت طويل من أن تصبح جاهزة للإنتاج. في شهر أبريل، وعدت شركة OpenAI بأن وضع الصوت المتقدم سيتم طرحه للمستخدمين “في غضون أسابيع قليلة”. وبعد أشهر، قالت الشركة إنها بحاجة إلى مزيد من الوقت.
عندما وصل وضع الصوت المتقدم أخيرًا في أوائل الخريف لبعض مستخدمي ChatGPT، كان يفتقر إلى مكون التحليل المرئي. في الفترة التي سبقت إطلاق اليوم، ركزت OpenAI معظم اهتمامها على جلب تجربة الوضع الصوتي المتقدم للصوت فقط إلى منصات ومستخدمين إضافيين في الاتحاد الأوروبي.