تطلق OpenAI لأول مرة نموذج GPT-4o “omni” الذي يعمل الآن على تشغيل ChatGPT

أعلنت شركة OpenAI عن نموذج جديد للذكاء الاصطناعي التوليدي الرائد يوم الاثنين أطلقوا عليه اسم GPT-4o – حيث يرمز الحرف “o” إلى “omni”، في إشارة إلى قدرة النموذج على التعامل مع النص والكلام والفيديو. من المقرر أن يتم طرح GPT-4o “بشكل متكرر” عبر منتجات الشركة المطورة والموجهة للمستهلكين خلال الأسابيع القليلة المقبلة.

وقالت ميرا موراتي، CTO في OpenAI، إن GPT-4o يوفر ذكاءً “على مستوى GPT-4” ولكنه يعمل على تحسين قدرات GPT-4 عبر طرائق ووسائط متعددة.

وقال موراتي خلال عرض تقديمي تم بثه في مكاتب OpenAI في سان فرانسيسكو يوم الاثنين: “إن GPT-4o له أسباب عبر الصوت والنص والرؤية”. “وهذا مهم للغاية، لأننا ننظر إلى مستقبل التفاعل بيننا وبين الآلات.”

تم تدريب GPT-4 Turbo، النموذج السابق “الأكثر تقدمًا” الرائد في OpenAI، على مجموعة من الصور والنصوص ويمكنه تحليل الصور والنصوص لإنجاز مهام مثل استخراج النص من الصور أو حتى وصف محتوى تلك الصور. لكن GPT-4o يضيف الكلام إلى هذا المزيج.

ماذا يمكّن هذا؟ مجموعة متنوعة من الأشياء.

اعتمادات الصورة: OpenAI

يعمل GPT-4o على تحسين تجربة ChatGPT المدعومة بالذكاء الاصطناعي من OpenAI بشكل كبير. لقد قدمت المنصة منذ فترة طويلة وضعًا صوتيًا يقوم بنسخ استجابات chatbot باستخدام نموذج تحويل النص إلى كلام، ولكن GPT-4o يعزز ذلك، مما يسمح للمستخدمين بالتفاعل مع ChatGPT بشكل أشبه بالمساعد.

على سبيل المثال، يمكن للمستخدمين طرح سؤال على ChatGPT الذي يعمل بنظام GPT-4o ومقاطعة ChatGPT أثناء الرد. يقول OpenAI إن النموذج يوفر استجابة “في الوقت الفعلي”، ويمكنه أيضًا التقاط الفروق الدقيقة في صوت المستخدم، مما يؤدي إلى توليد أصوات في “مجموعة من الأنماط الانفعالية المختلفة” (بما في ذلك الغناء).

يقوم GPT-4o أيضًا بترقية قدرات رؤية ChatGPT. من خلال صورة – أو شاشة سطح مكتب – يستطيع ChatGPT الآن الإجابة بسرعة على الأسئلة ذات الصلة، بدءًا من موضوعات تتراوح بين “ما الذي يحدث في كود البرنامج هذا؟” إلى “ما نوع القميص الذي يرتديه هذا الشخص؟”

تطبيق ChatGPT لسطح المكتب قيد الاستخدام في مهمة الترميز.

ويقول موراتي إن هذه الميزات سوف تتطور أكثر في المستقبل. في حين أن GPT-4o اليوم يمكنه النظر إلى صورة قائمة بلغة مختلفة وترجمتها، في المستقبل، يمكن للنموذج أن يسمح لـ ChatGPT، على سبيل المثال، “بمشاهدة” مباراة رياضية مباشرة وشرح القواعد لك.

“نحن نعلم أن هذه النماذج تزداد تعقيدًا، ولكننا نريد أن تصبح تجربة التفاعل أكثر طبيعية وسهولة، وأن لا نركز على واجهة المستخدم على الإطلاق، بل نركز فقط على التعاون مع ChatGPT.” قال موراتي. “على مدى العامين الماضيين، ركزنا بشكل كبير على تحسين ذكاء هذه النماذج… ولكن هذه هي المرة الأولى التي نخطو فيها خطوة كبيرة إلى الأمام عندما يتعلق الأمر بسهولة الاستخدام.”

يعد GPT-4o متعدد اللغات أيضًا، كما تدعي OpenAI، مع أداء محسّن في حوالي 50 لغة. وفي واجهة برمجة التطبيقات الخاصة بـ OpenAI وخدمة Azure OpenAI من Microsoft، فإن GPT-4o أسرع بمرتين ونصف السعر وله حدود معدل أعلى من GPT-4 Turbo، كما تقول الشركة.

في الوقت الحالي، لا يعد الصوت جزءًا من واجهة برمجة تطبيقات GPT-4o لجميع العملاء. تقول OpenAI، مستشهدة بمخاطر سوء الاستخدام، إنها تخطط لإطلاق الدعم أولاً لقدرات الصوت الجديدة لـ GPT-4o إلى “مجموعة صغيرة من الشركاء الموثوق بهم” في الأسابيع المقبلة.

يتوفر GPT-4o في الطبقة المجانية من ChatGPT بدءًا من اليوم وللمشتركين في ChatGPT Plus وخطط الفريق المتميزة من OpenAI مع حدود رسائل “أعلى بمقدار 5 مرات”. (تشير OpenAI إلى أن ChatGPT سيتحول تلقائيًا إلى GPT-3.5، وهو نموذج أقدم وأقل قدرة، عندما يصل المستخدمون إلى الحد الأقصى للمعدل.) ستصل تجربة ChatGPT الصوتية المحسنة المدعومة بـ GPT-4o إلى مرحلة ألفا لمستخدمي Plus في الشهر التالي أو لذلك، جنبًا إلى جنب مع الخيارات التي تركز على المؤسسات.

في أخبار ذات صلة، أعلنت OpenAI أنها ستطلق واجهة مستخدم ChatGPT محدثة على الويب مع شاشة رئيسية جديدة “أكثر محادثة” وتخطيط للرسائل، وإصدار سطح مكتب من ChatGPT لنظام التشغيل macOS يتيح للمستخدمين طرح الأسئلة عبر اختصار لوحة المفاتيح أو تلقي الأسئلة وطرحها. مناقشة لقطات الشاشة. سيتمكن مستخدمو ChatGPT Plus من الوصول إلى التطبيق أولاً، بدءًا من اليوم، وسيصل إصدار Windows في وقت لاحق من العام.

في مكان آخر، أصبح متجر GPT، مكتبة OpenAI وأدوات الإنشاء لروبوتات الدردشة التابعة لجهات خارجية المبنية على نماذج الذكاء الاصطناعي الخاصة بها، متاحًا الآن لمستخدمي الطبقة المجانية من ChatGPT. ويمكن للمستخدمين المجانيين الاستفادة من ميزات ChatGPT التي كانت في السابق محمية بنظام حظر الاشتراك غير المدفوع، مثل إمكانية الذاكرة التي تسمح لـ ChatGPT “بتذكر” تفضيلات التفاعلات المستقبلية، وتحميل الملفات والصور، والبحث في الويب عن إجابات للأسئلة في الوقت المناسب.

نحن نطلق نشرة إخبارية تعتمد على الذكاء الاصطناعي! قم بالتسجيل هنا لبدء تلقيها في صناديق البريد الوارد الخاصة بك في 5 يونيو.