أصدرت LAION، منظمة الأبحاث الألمانية التي أنشأت البيانات المستخدمة لتدريب Stable Diffusion، من بين نماذج الذكاء الاصطناعي التوليدية الأخرى، مجموعة بيانات جديدة تدعي أنها “تم تنظيفها تمامًا من الروابط المعروفة لمواد الاعتداء الجنسي على الأطفال المشتبه بها (CSAM).”
مجموعة البيانات الجديدة، Re-LAION-5B، هي في الواقع إعادة إصدار لمجموعة بيانات قديمة، LAION-5B – ولكن مع “إصلاحات” تم تنفيذها بتوصيات من مؤسسة Internet Watch غير الربحية، وهيومن رايتس ووتش، والمركز الكندي لحماية الطفل ومرصد ستانفورد للإنترنت البائد الآن. إنه متاح للتنزيل في نسختين، Re-LAION-5B Research وRe-LAION-5B Research-Safe (الذي يزيل أيضًا محتوى NSFW الإضافي)، وكلاهما تمت تصفيتهما لآلاف الروابط إلى CSAM المعروفة – و”المحتملة” يقول لايون.
وكتب LAION في منشور بالمدونة: “لقد التزمت LAION بإزالة المحتوى غير القانوني من مجموعات البيانات الخاصة بها منذ البداية ونفذت التدابير المناسبة لتحقيق ذلك منذ البداية”. “تلتزم LAION بشكل صارم بمبدأ إزالة المحتوى غير القانوني في أسرع وقت ممكن بعد أن يصبح معروفًا.”
من المهم ملاحظة أن مجموعات بيانات LAION لا تحتوي على صور ولم تحتوي عليها أبدًا. بل هي فهارس لروابط الصور والنصوص البديلة للصور التي نظمتها LAION، وكلها جاءت من مختلف مجموعة البيانات – الزحف المشترك – للمواقع وصفحات الويب المسروقة.
يأتي إصدار Re-LAION-5B بعد تحقيق أجراه مرصد الإنترنت بجامعة ستانفورد في ديسمبر 2023، والذي وجد أن LAION-5B – على وجه التحديد مجموعة فرعية تسمى LAION-5B 400M – تضمنت ما لا يقل عن 1679 رابطًا لصور غير قانونية تم استخلاصها من منشورات وسائل التواصل الاجتماعي و مواقع الكبار الشعبية. وفقًا للتقرير، يحتوي موقع 400M أيضًا على روابط إلى “مجموعة واسعة من المحتوى غير اللائق بما في ذلك الصور الإباحية والإهانات العنصرية والقوالب النمطية الاجتماعية الضارة”.
في حين أشار مؤلفو التقرير المشاركون في جامعة ستانفورد إلى أنه سيكون من الصعب إزالة المحتوى المسيء وأن وجود CSAM لا يؤثر بالضرورة على مخرجات النماذج المدربة على مجموعة البيانات، قالت LAION إنها ستوقف LAION-5B عن العمل مؤقتًا .
وأوصى تقرير جامعة ستانفورد بضرورة إهمال النماذج التي تم تدريبها على LAION-5B وإيقاف توزيعها حيثما أمكن ذلك. ولعله على نحو متصل، قامت شركة Runway الناشئة للذكاء الاصطناعي مؤخرًا بإلغاء نموذج Stable Diffusion 1.5 من منصة استضافة الذكاء الاصطناعي Hugging Face؛ لقد تواصلنا مع الشركة لمزيد من المعلومات. (عقدت Runway في عام 2023 شراكة مع Stability AI، الشركة التي تقف وراء Stable Diffusion، للمساعدة في تدريب نموذج Stable Diffusion الأصلي.)
من بين مجموعة بيانات Re-LAION-5B الجديدة، والتي تحتوي على حوالي 5.5 مليار زوج من الصور النصية وتم إصدارها بموجب ترخيص Apache 2.0، تقول LAION أنه يمكن لأطراف ثالثة استخدام البيانات التعريفية لتنظيف النسخ الموجودة من LAION-5B عن طريق إزالة مطابقة المحتوى غير القانوني.
تؤكد LAION أن مجموعات البيانات الخاصة بها مخصصة للأغراض البحثية، وليست التجارية. ولكن إذا كان للتاريخ أي مؤشر، فإن ذلك لن يثني بعض المنظمات. وبعيدًا عن الذكاء الاصطناعي المستقر، استخدمت جوجل ذات مرة مجموعات بيانات LAION لتدريب نماذجها المولدة للصور.
“في المجمل، 2236 رابطًا [to suspected CSAM] تمت إزالتها بعد المطابقة مع قوائم الارتباطات وتجزئة الصور المقدمة من شركائنا،” تابع LAION في المنشور. “تتضمن هذه الروابط أيضًا 1008 روابط عثر عليها تقرير مرصد ستانفورد للإنترنت في ديسمبر 2023… ونحن نحث بشدة جميع مختبرات البحث والمنظمات التي لا تزال تستخدم LAION-5B القديم على الانتقال إلى مجموعات بيانات Re-LAION-5B في أقرب وقت ممكن.”
اكتشاف المزيد من موقع شعاع للمعلوماتية
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.