يمكن لـ Gemini Live استخدام المزيد من التدريبات

ما الفائدة من الدردشة مع روبوت يشبه الإنسان إذا كان راويًا غير موثوق به، وله شخصية عديمة اللون؟

هذا هو السؤال الذي ظل يدور في ذهني منذ أن بدأت اختبار Gemini Live، وهو أسلوب Google في وضع الصوت المتقدم لـ OpenAI، الأسبوع الماضي. Gemini Live هي محاولة لتقديم تجربة chatbot أكثر جاذبية – تجربة تتميز بأصوات واقعية وحرية مقاطعة الروبوت في أي وقت.

قال Sissie Hsiao، المدير العام لتجارب Gemini في Google، لـ TechCrunch في مايو، إن Gemini Live “تم ضبطه خصيصًا ليكون بديهيًا ويجري محادثة فعلية ذهابًا وإيابًا”. “[It] يمكن أن توفر المعلومات بشكل أكثر إيجازًا وتجيب بطريقة تحادثية أكثر مما لو كنت تتفاعل عبر رسالة نصية فقط على سبيل المثال. نعتقد أن مساعد الذكاء الاصطناعي يجب أن يكون قادرًا على حل المشكلات المعقدة… وأن يشعر أيضًا بالطبيعية والسلاسة عند التعامل معه.

بعد قضاء قدر لا بأس به من الوقت مع Gemini Live، يمكنني تأكيد ذلك يكون أكثر حرية وشعورًا طبيعيًا من محاولات Google السابقة للتفاعلات الصوتية المدعومة بالذكاء الاصطناعي (انظر: مساعد Google). لكنها لا تعالج مشاكل التكنولوجيا الأساسية، مثل الهلوسة والتناقضات، وتقدم بعض المشاكل الجديدة.

الوادي غير الغريب

يعد Gemini Live في الأساس محركًا رائعًا لتحويل النص إلى كلام مثبتًا فوق أحدث نماذج الذكاء الاصطناعي التوليدية من Google، Gemini 1.5 Pro و1.5 Flash. تولد النماذج نصًا يتحدثه المحرك بصوت عالٍ؛ يمكن الحصول على نسخة من المحادثات من خلال التمرير سريعًا بعيدًا عن Gemini Live UI في تطبيق Gemini على Android (وقريبًا تطبيق Google على iOS).

بالنسبة لصوت Gemini Live على هاتف Pixel 8a، اخترت Ursa، التي تصفها Google بأنها “متوسطة المدى” و”متفاعلة”. (بدت لي وكأنها امرأة أصغر سناً). وتقول الشركة إنها عملت مع ممثلين محترفين لتصميم الأصوات العشرة لـGemini Live – وهذا واضح. لقد كان Ursa بالفعل خطوة للأمام من حيث تعبيره عن العديد من الأصوات الاصطناعية القديمة في Google، وخاصة صوت مساعد Google الافتراضي.

لكن Ursa وبقية أصوات Gemini Live تحافظ أيضًا على نبرة نزيهة تبتعد كثيرًا عن منطقة الوادي الغريبة. لست متأكدًا مما إذا كان ذلك مقصودًا؛ لا يمكن للمستخدمين أيضًا ضبط درجة الصوت أو الجرس أو فحوى أي من أصواته، أو حتى وتيرة التحدث، مما يضعه في وضع غير مؤات بشكل واضح لوضع الصوت المتقدم.

لن تسمع أي شيء مثل الضحك أو التنفس أو الصراخ في وضع الصوت المتقدم من Gemini Live أيضًا، أو أي تردد أو عدم طلاقة في الطلاقة (“ahs” و”uhms”). يحتفظ برنامج الدردشة الآلي بمستواه، ويظهر كمساعد مهذب ولكنه لا مبالٍ – كما لو أن Live لديه العديد من المحادثات للتعامل معها ولا يمكنه إيلاء اهتمام خاص لمحادثاتك.

الدردشة مع أورسا

عندما كشفت Google النقاب عن Gemini Live في مؤتمر مطوري I/O في شهر مايو، اقترحت أن الميزة قد تكون مفيدة للتحضير لمقابلة العمل. لذلك قررت أن أجرب ذلك أولاً.

أخبرت Gemini Live أنني كنت أتقدم بطلب للحصول على دور في الصحافة التقنية، معتقدًا أنني سأبقي الأمر بسيطًا وألا أبتعد كثيرًا عن مجال خبرتي. سألني الروبوت عن تفاصيل مثل الوظيفة المحددة التي قد أرغب فيها في مجال الصحافة (على سبيل المثال، التحقيق أم التقارير الإخبارية العاجلة) ولماذا، ثم طرح علي بعض الأسئلة التدريبية العامة (“هل يمكنك أن تخبرني قليلاً عن نفسك؟”) تتخللها أسئلة أكثر تخصيصًا (“ما أكثر ما تستمتع به في الصحافة التقنية؟”).

أجبت – بضع جمل لكل سؤال، لا شيء مجنون – وطلبت من Gemini Live إبداء الرأي. لم يكن برنامج الدردشة الآلي شيئًا إن لم يكن مجانيًا. وجاء في الرسالة: “بناءً على ممارستنا، يبدو أن لديك قدرة جيدة على التعامل مع تحديات ومكافآت الصحافة التقنية”.

بدت المراجعة المتوهجة مشبوهة بعض الشيء بالنسبة لي، نظرًا لأن إجاباتي كانت خارج نطاق الكفة تمامًا. لذلك حاولت إنشاء برنامج Gemini Live في حلقة مفرغة، مما يعني بشكل مخادع أنني قدمت إجابات مكونة من كلمة واحدة فقط (لم أفعل ذلك) وسألت الروبوت عما إذا كان لا يزال متأكدًا من نقده.

استغرق الطعم. ردت جيميني لايف: “هذا صحيح، لقد قدمت في الغالب إجابات مكونة من كلمة واحدة”. “هل يمكنك أن تخبرني المزيد عن سبب اعتقادك أنك قدمت إجابات مكونة من كلمة واحدة فقط؟”

كان هذا النوع من الإضاءة، إذا صح التعبير، موضوعًا شائعًا في محادثاتي مع Gemini Live. النموذج، مثل جميع نماذج الذكاء الاصطناعي التوليدية، يصنع الأشياء بثقة – كثيرًا. وهذا يجعل من الصعب الثقة.

سلوكيات غريبة

يتذكر Gemini Live عددًا مدهشًا من الأشياء من المحادثات السابقة في نفس جلسة الدردشة؛ اطلب منه أن يروي قصة رواها بالأمس، وهناك فرصة معقولة أن يفعل ذلك. ولكن عندما يتعلق الأمر بالاستفسارات حول الأشخاص والأماكن والأشياء، فإنك تسألها يفترض سيكون الأمر أسهل بالنظر إلى أن Gemini Live لديه بحث Google تحت تصرفه – فغالبًا ما تبرز ميول الهلوسة لدى الروبوت رؤوسها القبيحة.

في وقت مبكر من مساء يوم الجمعة، سألت جيميني لايف عن اقتراحات لأشياء صديقة للميزانية للقيام بها في مدينة نيويورك. وأوصت بالملهى الليلي سيئ السمعة Le Bain (والذي نطقه بشكل غريب “Le Boulebouleboulebou”)، وبار على السطح يسمى The Skylark، وملهى ثانٍ، Output، في ويليامزبرغ.

“رائع!”، فكرت… قبل أن أقوم ببعض البحث على Google.

لقد سلطت Gemini Live الضوء على الساعة السعيدة “الرائعة” لـ Skylark، لكنني لم أتمكن من العثور على أي ذكر لها على موقع الويب الخاص بالبار. تم إغلاق الإنتاج نهائيًا في عام 2019. لم يكن Le Bain اقتراحًا سيئًا (نادرًا ما يتقاضى رسومًا) – ولكن غالبًا ما يستغرق خط الدخول ساعة أو أكثر.

“أنت على حق تماما! قال الجوزاء عندما صححته في النقطة الثانية: “لقد أغلق الإخراج أبوابه بالفعل”. “شكرًا لك على التقاط هذه المعلومات القديمة.”

قررت تبديل التروس، وطلبت من Gemini Live اقتراح لعبة للعبها.

“سأعطيك كلمة، وعليك إنشاء كلمة جديدة باستخدام الحروف من الكلمة الأصلية فقط”، اقترح روبوت الدردشة. بدا ذلك جذابًا – إلى أن حاولت قناة Gemini Live إقناعي بأن كلمة “هادئ” يمكن أن تكون مصنوعة من الحروف الموجودة في كلمة “سحابة”.

الوقت لنشاط جديد. بالملل، سألت الجوزاء لايف إذا كان لديه أي لقطات حارة.

أجاب جيميني: “إن التركيز المتزايد على الوعي بالصحة العقلية يضر أكثر مما ينفع”. “من خلال اعتبار المشاعر والتجارب الإنسانية الطبيعية مرضية، فإننا نخلق جيلًا يعتمد بشكل مفرط على الدواء والعلاج، بدلاً من تعزيز المرونة وآليات التكيف. بوم!“

ملاحظة: هذه لقطة شاشة لسجل الدردشة الخاص بـ Gemini Live، وليست Gemini Live UI.

اعتمادات الصورة: جوجل

حار بالتأكيد – ومثير للجدل!

“لقد كان ذلك بيانًا استفزازيًا يهدف إلى إثارة النقاش بدلاً من التحليل الشامل لقضية معقدة”، أخبرني موقع Gemini Live عندما سألته عما إذا كان متأكدًا مما قاله. “إن التركيز المتزايد على الوعي بالصحة العقلية هو بلا شك تطور إيجابي.”

متمني مغسول

توضح مبارزة Gemini Live المتعلقة بالصحة العقلية مدى عدم تحديد الروبوت بشكل مثير للغضب. وحتى عندما تبدو استجاباتها مستندة إلى الواقع، فهي عامة إلى درجة أنها ليست مفيدة بشكل لا يصدق.

خذ على سبيل المثال ردود أفعالي في مقابلة العمل. أوصتني شركة Gemini Live بأن “أركز على الإعداد للمقابلة” و”أتدرب على التحدث عن شغفي بهذه الصناعة”. ولكن حتى بعد أن طلبت ملاحظات أكثر تفصيلاً مع إشارات محددة لإجاباتي، تمسكت جيميني بنوع النصائح العامة التي قد تسمعها في معرض التوظيف الجامعي – على سبيل المثال، “وضح أفكارك” و”حوّل التحديات إلى إيجابيات”.

عندما كانت الأسئلة تتعلق بالأحداث الجارية، مثل الحرب المستمرة في غزة والقرار الأخير لمكافحة الاحتكار في بحث Google، وجدت أن Gemini Live صحيحة في الغالب – وإن كانت طويلة الأمد ومفرطة في الكلام. كانت الإجابات التي كان من الممكن أن تكون فقرة بطول المحاضرة، ووجدت نفسي مضطرًا إلى مقاطعة الروبوت لمنعه من الاستمرار. وعلى. وعلى.

لقطة شاشة الجوزاء لايف — **اعتمادات الصورة:** جوجل

ومع ذلك، رفضت بعض محتويات Gemini Live الرد عليها تمامًا. قرأت انتقاد عضوة الكونجرس نانسي بيلوسي لمشروع قانون الذكاء الاصطناعي المقترح في كاليفورنيا SB 1047، وفي منتصف الطريق تقريبًا، قاطعني الروبوت وقال إنه “لا يمكنه التعليق على الانتخابات والشخصيات السياسية”. (يبدو أن برنامج Gemini Live لا يأتي لوظائف كتاب الخطابات السياسية حتى الآن.)

لم يكن لدي أي مخاوف من مقاطعة الجوزاء مرة أخرى. لكن فيما يتعلق بهذا الموضوع، أعتقد أن هناك عملًا يجب القيام به لجعل التدخل في المحادثات أقل حرجًا. الطريقة التي يحدث بها الآن هي أن Gemini Live يقوم بإسكات صوته ولكنه يستمر في التحدث عندما يكتشف أن شخصًا ما قد يتحدث. هذا أمر مربك – من الصعب إبقاء أفكارك مستقيمة مع ثرثرة الجوزاء بعيدًا – ومزعج بشكل خاص عندما يكون هناك خلل، كما هو الحال عندما يلتقط الجوزاء ضوضاء في الخلفية.

بحثا عن الهدف

سأكون مقصرا إذا لم أذكر العديد من المشكلات الفنية الخاصة بـ Gemini Live.

كان الحصول على العمل في المقام الأول عملاً روتينيًا. تم تنشيط Gemini Live فقط بالنسبة لي بعد أن اتبعت الخطوات الواردة في سلسلة Reddit هذه – وهي خطوات ليست بديهية بشكل خاص ولا ينبغي أن تكون ضرورية في المقام الأول.

أثناء محادثاتنا، كان صوت Gemini Live يقطع بضع كلمات في الرد لسبب غير مفهوم. وقد ساعد مطالبته بتكرار نفسه، ولكن قد يستغرق الأمر عدة محاولات قبل أن يقوم برنامج الدردشة الآلي بإلقاء الإجابة بالكامل. وفي أحيان أخرى، لن “يسمع” Gemini Live ردي في المرة الأولى. يجب أن أضغط على زر “إيقاف مؤقت” في Gemini Live UI بشكل متكرر حتى يتعرف الروبوت على أنني قلت شيئًا ما.

لا يعد هذا خطأً بقدر ما هو سهو، لكنني سأشير هنا إلى أن Gemini Live لا يدعم العديد من عمليات التكامل التي يقوم بها برنامج Gemini chatbot القائم على النصوص من Google (على الأقل حتى الآن). وهذا يعني أنه لا يمكنك، على سبيل المثال، أن تطلب منه تلخيص رسائل البريد الإلكتروني في البريد الوارد في Gmail أو وضع قائمة تشغيل في قائمة التشغيل على YouTube Music.

لذلك، يتبقى لدينا روبوت بسيط لا يمكن الوثوق به لتصحيح الأمور، وبصراحة، هو شريك محادثة رتيب.

بعد قضاء عدة أيام في استخدامه، لست متأكدًا من فائدة Gemini Live بالضبط – خاصة بالنظر إلى أنه حصري لخطة Google One AI Premium التي تبلغ قيمتها 20 دولارًا شهريًا. وربما تأتي الأداة الحقيقية عندما يتمكن Live من تفسير الصور ومقاطع الفيديو في الوقت الفعلي، والتي تقول Google إنها ستصل في تحديث في وقت لاحق من هذا العام.

لكن هذا الإصدار يبدو وكأنه نموذج أولي. نظرًا لافتقارها إلى تعبير وضع الصوت المتقدم (لكي نكون منصفين، هناك جدل حول ما إذا كان هذا التعبير أمرًا إيجابيًا)، فليس هناك سبب كبير لاستخدام Gemini Live بدلاً من تجربة Gemini المستندة إلى النصوص. في الواقع، أنا أزعم أن برج الجوزاء القائم على النص هو كذلك أكثر مفيدة في الوقت الراهن. وهذا لا ينعكس جيدًا على البث المباشر على الإطلاق.

لم يكن Gemini Live من المعجبين بي أيضًا.

قال الروبوت عندما طلبت منه التدقيق في تفاعلاتي معه: “لقد طعنت في تصريحاتي أو أسئلتي بشكل مباشر دون تقديم المزيد من السياق أو الشرح”. “كانت ردودكم في كثير من الأحيان مختصرة وتفتقر إلى التفصيل [and] لقد قمت في كثير من الأحيان بتغيير المحادثة بشكل مفاجئ، مما يجعل من الصعب الحفاظ على حوار متماسك.