لا داعي للقلق من أن محادثات ChatGPT السرية الخاصة بك قد تم الحصول عليها من خلال اختراق تم الإبلاغ عنه مؤخرًا لأنظمة OpenAI. يبدو أن الاختراق نفسه، على الرغم من كونه مثيرًا للقلق، كان سطحيًا – ولكنه تذكير بأن شركات الذكاء الاصطناعي قد حولت نفسها في وقت قصير إلى واحدة من أكثر الأهداف إثارة للقراصنة.
أبلغت صحيفة نيويورك تايمز عن الاختراق بمزيد من التفاصيل بعد أن ألمح ليوبولد أشنبرينر، الموظف السابق في OpenAI، إلى ذلك مؤخرًا في بث صوتي. ووصف ذلك بأنه “حادث أمني كبير”، لكن مصادر في الشركة لم تذكر اسمها قالت لصحيفة التايمز إن المتسلل لم يتمكن إلا من الوصول إلى منتدى مناقشة الموظفين. (لقد تواصلت مع OpenAI للتأكيد والتعليق.)
لا ينبغي التعامل مع أي خرق أمني على أنه أمر تافه، ومن المؤكد أن التنصت على محادثات تطوير OpenAI الداخلية له قيمته. لكن لا يمكن للمتسلل الوصول إلى الأنظمة الداخلية، والنماذج قيد التنفيذ، وخرائط الطريق السرية، وما إلى ذلك.
ولكن ينبغي أن يخيفنا ذلك على أية حال، وليس بالضرورة بسبب التهديد الذي تشكله الصين أو غيرها من الخصوم الذين سيتفوقون علينا في سباق التسلح القائم على الذكاء الاصطناعي. الحقيقة البسيطة هي أن شركات الذكاء الاصطناعي هذه أصبحت حراسًا لكمية هائلة من البيانات القيمة للغاية.
دعونا نتحدث عن ثلاثة أنواع من البيانات OpenAI، وبدرجة أقل، شركات الذكاء الاصطناعي الأخرى التي أنشأتها أو يمكنها الوصول إليها: بيانات التدريب عالية الجودة، وتفاعلات المستخدم المجمعة، وبيانات العملاء.
من غير المؤكد ما هي بيانات التدريب التي تمتلكها بالضبط، لأن الشركات تلتزم السرية بشكل لا يصدق بشأن مخزونها. ولكن من الخطأ الاعتقاد بأنها مجرد أكوام كبيرة من بيانات الويب المسروقة. نعم، إنهم يستخدمون أدوات استخراج بيانات الويب أو مجموعات البيانات مثل Pile، ولكنها مهمة ضخمة تتمثل في تشكيل تلك البيانات الأولية إلى شيء يمكن استخدامه لتدريب نموذج مثل GPT-4o. يتطلب الأمر قدرًا هائلاً من ساعات العمل البشري للقيام بذلك، ولا يمكن تشغيله آليًا إلا جزئيًا.
تكهن بعض مهندسي التعلم الآلي أنه من بين جميع العوامل التي تدخل في إنشاء نموذج لغة كبير (أو ربما أي نظام قائم على المحولات)، فإن العامل الأكثر أهمية هو جودة مجموعة البيانات. ولهذا السبب فإن النموذج الذي تم تدريبه على تويتر وريديت لن يكون أبدًا بليغًا مثل النموذج الذي تم تدريبه على كل عمل منشور في القرن الماضي. (وربما السبب وراء استخدام OpenAI لمصادر قانونية مشكوك فيها مثل الكتب المحمية بحقوق الطبع والنشر في بيانات التدريب الخاصة بهم، وهي ممارسة يزعمون أنهم تخلوا عنها).
لذا فإن مجموعات بيانات التدريب التي أنشأتها OpenAI لها قيمة هائلة للمنافسين، بدءًا من الشركات الأخرى إلى الدول المعادية وحتى الجهات التنظيمية هنا في الولايات المتحدة، ألن ترغب لجنة التجارة الفيدرالية أو المحاكم في معرفة البيانات التي تم استخدامها بالضبط، وما إذا كانت OpenAI صادقة بشأنها؟ الذي – التي؟
ولكن ربما يكون الأمر الأكثر قيمة هو المجموعة الهائلة من بيانات المستخدم الخاصة بـ OpenAI، والتي ربما تكون مليارات المحادثات مع ChatGPT حول مئات الآلاف من المواضيع. وكما كانت بيانات البحث ذات يوم هي المفتاح لفهم النفسية الجماعية للويب، فإن ChatGPT يضع إصبعه على نبض السكان الذين قد لا يكونون واسعين مثل عالم مستخدمي Google، ولكنه يوفر عمقًا أكبر بكثير. (في حالة عدم علمك بذلك، ما لم تقم بإلغاء الاشتراك، فسيتم استخدام محادثاتك لبيانات التدريب.)
في حالة جوجل، فإن الزيادة الطفيفة في عمليات البحث عن “مكيفات الهواء” تشير إلى أن السوق يسخن قليلاً. لكن هؤلاء المستخدمين لا يجرون بعد ذلك محادثة كاملة حول ما يريدون، وحجم الأموال التي يرغبون في إنفاقها، وكيف تبدو منازلهم، والشركات المصنعة التي يريدون تجنبها، وما إلى ذلك. أنت تعلم أن هذا أمر ذو قيمة لأن Google نفسها تحاول تحويل مستخدميها لتوفير هذه المعلومات بالذات عن طريق استبدال تفاعلات الذكاء الاصطناعي بعمليات البحث!
فكر في عدد المحادثات التي أجراها الأشخاص مع ChatGPT، ومدى فائدة هذه المعلومات، ليس فقط لمطوري الذكاء الاصطناعي، ولكن أيضًا لفرق التسويق، والاستشاريين، والمحللين… إنه منجم ذهب.
ربما تكون الفئة الأخيرة من البيانات هي الأعلى قيمة في السوق المفتوحة: كيف يستخدم العملاء الذكاء الاصطناعي فعليًا، والبيانات التي قاموا بتغذيتها بأنفسهم للنماذج.
تستخدم المئات من الشركات الكبرى وعدد لا يحصى من الشركات الصغيرة أدوات مثل OpenAI وAnthropic’s APIs لمجموعة كبيرة ومتنوعة من المهام. ولكي يكون النموذج اللغوي مفيدًا لهم، يجب عادةً ضبطه أو منحه إمكانية الوصول إلى قواعد البيانات الداخلية الخاصة بهم.
قد يكون هذا شيئًا مبتذلاً مثل أوراق الميزانية القديمة أو سجلات الموظفين (لتسهيل البحث عنها، على سبيل المثال)، أو ذو قيمة مثل التعليمات البرمجية لبرنامج لم يتم إصداره بعد. ما يفعلونه بقدرات الذكاء الاصطناعي (وما إذا كانت مفيدة بالفعل) هو عملهم الخاص، ولكن الحقيقة البسيطة هي أن مزود الذكاء الاصطناعي يتمتع بامتياز الوصول، تمامًا كما يفعل أي منتج SaaS آخر.
هذه أسرار صناعية، وقد أصبحت شركات الذكاء الاصطناعي فجأة في قلب جزء كبير منها. إن حداثة هذا الجانب من الصناعة تحمل في طياتها مخاطر خاصة تتمثل في أن عمليات الذكاء الاصطناعي ليست موحدة أو مفهومة بالكامل بعد.
مثل أي مزود SaaS، فإن شركات الذكاء الاصطناعي قادرة تمامًا على توفير مستويات الصناعة القياسية من الأمان والخصوصية والخيارات المحلية، وبشكل عام تقديم خدماتها بشكل مسؤول. ليس لدي أدنى شك في أن قواعد البيانات الخاصة واستدعاءات واجهة برمجة التطبيقات (API) لعملاء OpenAI’s Fortune 500 مغلقة بإحكام شديد! ومن المؤكد أنهم يجب أن يكونوا على دراية بالمخاطر الكامنة في التعامل مع البيانات السرية في سياق الذكاء الاصطناعي أو أكثر. (إن حقيقة عدم قيام OpenAI بالإبلاغ عن هذا الهجوم هو اختيارهم، لكنه لا يوحي بالثقة لشركة في حاجة ماسة إليها.)
لكن الممارسات الأمنية الجيدة لا تغير قيمة ما تهدف إلى حمايته، أو حقيقة أن الجهات الفاعلة الخبيثة والأعداء المتنوعين يتسللون إلى الباب للدخول. فالأمن لا يقتصر فقط على اختيار الإعدادات الصحيحة أو الحفاظ على تحديث برامجك – على الرغم من أن الأساسيات مهمة أيضًا. إنها لعبة القط والفأر التي لا تنتهي أبدًا، ومن المفارقات أن الذكاء الاصطناعي نفسه يشحنها بشكل فائق: حيث يقوم العملاء وآليات الهجوم بالتحقيق في كل زاوية وركن من أسطح الهجوم الخاصة بهذه الشركات.
لا يوجد سبب للذعر، فالشركات التي لديها إمكانية الوصول إلى الكثير من البيانات الشخصية أو ذات القيمة التجارية واجهت مخاطر مماثلة وأدارتها لسنوات. لكن شركات الذكاء الاصطناعي تمثل هدفًا أحدث وأصغر سنًا وربما أكثر جاذبية من خادم المؤسسة المتنوع الذي تم تكوينه بشكل سيئ أو وسيط البيانات غير المسؤول. حتى الاختراق مثل الذي تم ذكره أعلاه، دون أي عمليات تسلل خطيرة نعرفها، يجب أن يقلق أي شخص يتعامل مع شركات الذكاء الاصطناعي. لقد رسموا الأهداف على ظهورهم. لا تتفاجأ عندما يقوم أي شخص أو الجميع بإطلاق النار.