تطلق Cloudflare أداة لمكافحة روبوتات الذكاء الاصطناعي

أطلقت شركة Cloudflare، مزود الخدمة السحابية للتداول العام، أداة جديدة مجانية لمنع الروبوتات من استخلاص البيانات من مواقع الويب المستضافة على منصتها لتدريب نماذج الذكاء الاصطناعي.

يسمح بعض موردي الذكاء الاصطناعي، بما في ذلك Google وOpenAI وApple، لأصحاب مواقع الويب بحظر الروبوتات التي يستخدمونها لاستخراج البيانات والتدريب النموذجي عن طريق تعديل ملف robots.txt الخاص بموقعهم، وهو الملف النصي الذي يخبر الروبوتات بالصفحات التي يمكنهم الوصول إليها على موقع الويب. ولكن، كما أشارت Cloudflare في منشور تعلن فيه عن أداة مكافحة الروبوتات الخاصة بها، لا تحترم جميع أدوات استخراج الذكاء الاصطناعي هذا الأمر.

وكتبت الشركة في مدونتها الرسمية: “لا يرغب العملاء في زيارة روبوتات الذكاء الاصطناعي لمواقعهم الإلكترونية، وخاصة تلك التي تفعل ذلك بطريقة غير شريفة”. “نخشى أن تتكيف بعض شركات الذكاء الاصطناعي التي تنوي التحايل على القواعد للوصول إلى المحتوى باستمرار للتهرب من اكتشاف الروبوتات.”

لذلك، في محاولة لمعالجة المشكلة، قامت Cloudflare بتحليل حركة مرور الروبوتات والزاحف التي تعمل بالذكاء الاصطناعي لضبط نماذج الكشف التلقائي عن الروبوتات. تأخذ النماذج بعين الاعتبار، من بين عوامل أخرى، ما إذا كان روبوت الذكاء الاصطناعي يحاول تجنب الكشف عن طريق محاكاة مظهر وسلوك شخص ما يستخدم متصفح الويب.

كتب Cloudflare: “عندما تحاول الجهات الفاعلة السيئة الزحف إلى مواقع الويب على نطاق واسع، فإنها تستخدم عمومًا الأدوات والأطر التي يمكننا أخذ بصماتها”. “بناء على هذه الإشارات، نماذجنا [are] قادرة على الإبلاغ بشكل مناسب عن حركة المرور من روبوتات الذكاء الاصطناعي المراوغة باعتبارها روبوتات.

قامت Cloudflare بإعداد نموذج للمضيفين للإبلاغ عن روبوتات الذكاء الاصطناعي وبرامج الزحف المشتبه بها، وتقول إنها ستستمر في إدراج روبوتات الذكاء الاصطناعي في القائمة السوداء يدويًا بمرور الوقت.

لقد برزت مشكلة روبوتات الذكاء الاصطناعي بشكل واضح، حيث أدى ازدهار الذكاء الاصطناعي إلى زيادة الطلب على بيانات التدريب النموذجية.

اختارت العديد من المواقع، التي تشعر بالقلق من نماذج تدريب بائعي الذكاء الاصطناعي على محتواها دون تنبيههم أو تعويضهم، حظر برامج كاشطات وبرامج الزحف الخاصة بالذكاء الاصطناعي. قام حوالي 26% من أفضل 1000 موقع على الويب بحظر روبوت OpenAI، وفقًا لإحدى الدراسات؛ ووجد آخر أن أكثر من 600 ناشر أخبار قد قاموا بحظر الروبوت.

ومع ذلك، فإن الحظر ليس حماية مؤكدة. وكما أشرنا سابقًا، يبدو أن بعض البائعين يتجاهلون قواعد استبعاد الروبوتات القياسية للحصول على ميزة تنافسية في سباق الذكاء الاصطناعي. تم اتهام محرك بحث الذكاء الاصطناعي Perplexity مؤخرًا بانتحال هوية زوار شرعيين لاستخراج محتوى من مواقع الويب، ويقال إن OpenAI وAnthropic تجاهلتا في بعض الأحيان قواعد ملف robots.txt.

وفي رسالة إلى الناشرين الشهر الماضي، قالت شركة TollBit الناشئة في مجال ترخيص المحتوى، إنها في الواقع ترى أن “العديد من عملاء الذكاء الاصطناعي” يتجاهلون معيار ملف robots.txt.

يمكن لأدوات مثل Cloudflare أن تساعد، ولكن فقط إذا أثبتت دقتها في اكتشاف روبوتات الذكاء الاصطناعي السرية. و هم متعود حل المشكلة الأكثر تعقيدًا المتمثلة في مخاطرة الناشرين بالتضحية بحركة الإحالة من أدوات الذكاء الاصطناعي مثل Google’s AI Overviews، والتي تستبعد المواقع من التضمين إذا قامت بحظر برامج زحف محددة تعمل بالذكاء الاصطناعي.