في وقت سابق من هذا العام، ذكرنا أننا نقدم إمكانات استخدام الكمبيوتر للمطورين عبر Gemini API. اليوم، نطلق نموذج Gemini 2.5 Computer Use، وهو نموذجنا المتخصص الجديد المبني على قدرات الفهم والاستدلال المرئية لـ Gemini 2.5 Pro والتي تعمل على تمكين الوكلاء القادرين على التفاعل مع واجهات المستخدم (UIs). فهو يتفوق على البدائل الرائدة في العديد من معايير التحكم في الويب والهواتف المحمولة، وكل ذلك بوقت استجابة أقل. يمكن للمطورين الوصول إلى هذه الإمكانات عبر Gemini API في Google AI Studio وVertex AI.
في حين أن نماذج الذكاء الاصطناعي يمكنها التفاعل مع البرامج من خلال واجهات برمجة التطبيقات المنظمة، فإن العديد من المهام الرقمية لا تزال تتطلب تفاعلًا مباشرًا مع واجهات المستخدم الرسومية، على سبيل المثال، ملء النماذج وإرسالها. لإكمال هذه المهام، يجب على الوكلاء التنقل بين صفحات الويب والتطبيقات تمامًا كما يفعل البشر: عن طريق النقر والكتابة والتمرير. تعد القدرة على ملء النماذج محليًا، ومعالجة العناصر التفاعلية مثل القوائم المنسدلة والمرشحات، والعمل خلف عمليات تسجيل الدخول، خطوة تالية حاسمة في بناء وكلاء قويين للأغراض العامة.
كيف يعمل
يتم الكشف عن القدرات الأساسية للنموذج من خلال أداة “استخدام_الكمبيوتر” الجديدة في Gemini API ويجب تشغيلها ضمن حلقة. المدخلات إلى الأداة هي طلب المستخدم، ولقطة شاشة للبيئة، وسجل الإجراءات الأخيرة. يمكن أن يحدد الإدخال أيضًا ما إذا كان سيتم استبعاد الوظائف من القائمة الكاملة لإجراءات واجهة المستخدم المدعومة أو تحديد وظائف مخصصة إضافية لتضمينها.
