هل من الممكن أن يتم تدريب الذكاء الاصطناعي فقط على البيانات التي يولدها ذكاء اصطناعي آخر؟ قد يبدو الأمر وكأنه فكرة متهورة. لكنها كانت موجودة منذ بعض الوقت، ومع تزايد صعوبة الحصول على بيانات حقيقية جديدة، فقد اكتسبت زخمًا.
استخدمت أنثروبيك بعض البيانات الاصطناعية لتدريب أحد نماذجها الرئيسية، كلود 3.5 سونيت. قامت Meta بضبط نماذج Llama 3.1 الخاصة بها باستخدام البيانات التي تم إنشاؤها بواسطة الذكاء الاصطناعي. ويقال إن OpenAI تحصل على بيانات التدريب الاصطناعية من o1، نموذجها “المنطقي”، من أجل Orion القادم.
ولكن لماذا يحتاج الذكاء الاصطناعي إلى البيانات في المقام الأول، وماذا؟ عطوف من البيانات التي تحتاجها؟ ويمكن لهذه البيانات حقًا هل سيتم استبدالها بالبيانات الاصطناعية؟
أهمية الحواشي
أنظمة الذكاء الاصطناعي هي آلات إحصائية. ومن خلال تدريبهم على الكثير من الأمثلة، يتعلمون الأنماط الموجودة في تلك الأمثلة لإجراء تنبؤات، مثل عبارة “إلى من” في رسالة البريد الإلكتروني التي تسبق عادةً عبارة “قد يهمني الأمر”.
تُعد التعليقات التوضيحية، والتي عادةً ما تكون عبارة عن نص يصف المعنى أو أجزاء من البيانات التي تستوعبها هذه الأنظمة، جزءًا أساسيًا في هذه الأمثلة. إنها بمثابة نقاط إرشادية، و”تعليم” نموذج للتمييز بين الأشياء والأماكن والأفكار.
خذ بعين الاعتبار نموذجًا لتصنيف الصور يعرض الكثير من صور المطابخ التي تحمل كلمة “مطبخ”. أثناء تدريبه، سيبدأ النموذج في إنشاء روابط بين “المطبخ” والعامة صفات المطابخ (على سبيل المثال التي تحتوي على ثلاجات وأسطح عمل). بعد التدريب، ونظرًا لصورة المطبخ التي لم يتم تضمينها في الأمثلة الأولية، يجب أن يكون النموذج قادرًا على التعرف عليها على هذا النحو. (وبطبيعة الحال، إذا تم تصنيف صور المطابخ على أنها “بقرة”، فسوف يتم تعريفها على أنها أبقار، مما يؤكد أهمية الشرح الجيد.)
أدت الرغبة في الذكاء الاصطناعي والحاجة إلى توفير بيانات مصنفة لتطويره إلى تضخم سوق خدمات التعليقات التوضيحية. تقدر شركة Dimension Market Research أن قيمتها تبلغ 838.2 مليون دولار اليوم – وستبلغ قيمتها 10.34 مليار دولار في السنوات العشر القادمة. على الرغم من عدم وجود تقديرات دقيقة لعدد الأشخاص الذين يشاركون في أعمال وضع العلامات، فإن ورقة بحثية لعام 2022 تربط العدد بـ “الملايين”.
تعتمد الشركات الكبيرة والصغيرة على العاملين الذين توظفهم شركات التعليقات التوضيحية للبيانات لإنشاء ملصقات لمجموعات تدريب الذكاء الاصطناعي. تدفع بعض هذه الوظائف رواتب جيدة إلى حد معقول، لا سيما إذا كان التصنيف يتطلب معرفة متخصصة (مثل الخبرة في الرياضيات). البعض الآخر يمكن أن يكون مقسوما. يُدفع للمعلقين في البلدان النامية بضعة دولارات فقط في الساعة في المتوسط دون أي فوائد أو ضمانات للعربات المستقبلية.
تجفيف البيانات بشكل جيد
لذلك هناك أسباب إنسانية للبحث عن بدائل للتسميات التي أنشأها الإنسان. ولكن هناك أيضًا أشياء عملية.
لا يمكن للبشر أن يصنفوا إلا بهذه السرعة. لدى المعلقين أيضًا تحيزات يمكن أن تظهر في تعليقاتهم التوضيحية، وبالتالي في أي نماذج تم تدريبها عليها. يرتكب المدونون أخطاء، أو يتعثرون في تصنيف التعليمات. ودفع الأموال للبشر للقيام بالأشياء أمر مكلف.
بيانات على العموم مكلفة، في هذا الشأن. تفرض شركة Shutterstock رسومًا على بائعي الذكاء الاصطناعي عشرات الملايين من الدولارات للوصول إلى أرشيفاتها، في حين حققت شركة Reddit مئات الملايين من بيانات الترخيص لجوجل، وOpenAI، وغيرهما.
وأخيرًا، أصبح الحصول على البيانات أكثر صعوبة أيضًا.
يتم تدريب معظم النماذج على مجموعات ضخمة من البيانات العامة، وهي البيانات التي يختار أصحابها بشكل متزايد الاطلاع عليها خوفًا من أن تكون بياناتهم مسروقة، أو أنهم لن يحصلوا على الفضل أو الإسناد لها. أكثر من 35% من أفضل 1000 موقع ويب في العالم تحظر الآن أداة استخراج الويب الخاصة بـ OpenAI. ووجدت إحدى الدراسات الحديثة أن حوالي 25% من البيانات المستمدة من مصادر “عالية الجودة” تم تقييدها من مجموعات البيانات الرئيسية المستخدمة لتدريب النماذج.
إذا استمر الاتجاه الحالي لحظر الوصول، تتوقع مجموعة أبحاث Epoch AI أن المطورين سوف ينفد لديهم البيانات اللازمة لتدريب نماذج الذكاء الاصطناعي التوليدية بين عامي 2026 و2032. وهذا، إلى جانب المخاوف من الدعاوى القضائية المتعلقة بحقوق الطبع والنشر والمواد غير المرغوب فيها التي تشق طريقها إلى مجموعات البيانات المفتوحة. ، أجبر بائعي الذكاء الاصطناعي على إجراء حساب.
البدائل الاصطناعية
للوهلة الأولى، قد تبدو البيانات الاصطناعية هي الحل لجميع هذه المشاكل. هل تحتاج إلى تعليقات توضيحية؟ أنشئها. مزيد من البيانات سبيل المثال؟ لا مشكلة. السماء هي الحد.
وإلى حد ما، هذا صحيح.
قال أوس كيز، طالب الدكتوراه في جامعة واشنطن والذي يدرس التأثير الأخلاقي للتكنولوجيات الناشئة، لـ TechCrunch: “إذا كانت البيانات هي النفط الجديد، فإن البيانات الاصطناعية تقدم نفسها كوقود حيوي، يمكن إنشاؤه دون العوامل الخارجية السلبية للشيء الحقيقي”. . “يمكنك أخذ مجموعة بداية صغيرة من البيانات ومحاكاة واستقراء المدخلات الجديدة منها.”
لقد أخذت صناعة الذكاء الاصطناعي هذا المفهوم وعملت به.
هذا الشهر، أطلقت شركة Writer، وهي شركة ذكاء اصطناعي توليدية تركز على المؤسسات، نموذجًا، Palmyra X 004، تم تدريبه بالكامل تقريبًا على البيانات الاصطناعية. يدعي رايتر أن تطويره كلف 700 ألف دولار فقط، مقارنة بتقديرات قدرها 4.6 مليون دولار لنموذج OpenAI ذي الحجم المماثل.
تم تدريب نماذج Phi المفتوحة من Microsoft باستخدام البيانات الاصطناعية جزئيًا. وكذلك كانت نماذج جيما من جوجل. كشفت Nvidia هذا الصيف عن عائلة نموذجية مصممة لتوليد بيانات تدريب اصطناعية، وأصدرت شركة Hugging Face الناشئة مؤخرًا ما تدعي أنها أكبر مجموعة بيانات تدريب للذكاء الاصطناعي من نص اصطناعي.
لقد أصبح توليد البيانات الاصطناعية عملا تجاريا في حد ذاته – وهو عمل يمكن أن تبلغ قيمته 2.34 مليار دولار بحلول عام 2030. وتتوقع مؤسسة جارتنر أن 60٪ من البيانات المستخدمة في مشاريع الذكاء الاصطناعي والتحليلات هذا العام سيتم إنشاؤها صناعيا.
أشار لوكا سولديني، أحد كبار الباحثين في معهد ألين للذكاء الاصطناعي، إلى أنه يمكن استخدام تقنيات البيانات الاصطناعية لإنشاء بيانات تدريب بتنسيق لا يمكن الحصول عليه بسهولة من خلال الاستخراج (أو حتى ترخيص المحتوى). على سبيل المثال، في تدريب مولد الفيديو الخاص بها Movie Gen، استخدمت Meta برنامج Llama 3 لإنشاء تسميات توضيحية للقطات في بيانات التدريب، والتي قام البشر بعد ذلك بتحسينها لإضافة المزيد من التفاصيل، مثل أوصاف الإضاءة.
على نفس المنوال، تقول OpenAI إنها قامت بضبط GPT-4o باستخدام البيانات الاصطناعية لإنشاء ميزة Canvas التي تشبه لوحة الرسم لـ ChatGPT. وقالت أمازون إنها تقوم بإنشاء بيانات تركيبية لتكملة بيانات العالم الحقيقي التي تستخدمها لتدريب نماذج التعرف على الكلام لـ Alexa.
وقال سولديني: “يمكن استخدام نماذج البيانات الاصطناعية للتوسع بسرعة بناءً على الحدس البشري بشأن البيانات المطلوبة لتحقيق سلوك نموذجي محدد”.
المخاطر الاصطناعية
ومع ذلك، فإن البيانات الاصطناعية ليست حلا سحريا. إنها تعاني من نفس مشكلة “القمامة التي تدخل، القمامة تخرج” مثل جميع أنظمة الذكاء الاصطناعي. نماذج يخلق البيانات الاصطناعية، وإذا كانت البيانات المستخدمة لتدريب هذه النماذج بها تحيزات وقيود، فإن مخرجاتها ستكون مشوهة بالمثل. على سبيل المثال، المجموعات الممثلة بشكل سيئ في البيانات الأساسية ستكون كذلك في البيانات الاصطناعية.
وقال كييز: “المشكلة هي أنه لا يمكنك فعل الكثير”. “لنفترض أن لديك 30 شخصًا أسود فقط في مجموعة البيانات. قد يكون الاستقراء مفيدًا، ولكن إذا كان هؤلاء الأشخاص الثلاثون جميعهم من الطبقة المتوسطة، أو جميعهم من ذوي البشرة الفاتحة، فهذا هو الشكل الذي ستبدو عليه البيانات “التمثيلية”.
حتى هذه اللحظة، وجدت دراسة أجراها باحثون في جامعة رايس وستانفورد عام 2023 أن الاعتماد المفرط على البيانات الاصطناعية أثناء التدريب يمكن أن يخلق نماذج “تتناقص جودتها أو تنوعها تدريجيا”. يؤدي تحيز أخذ العينات – التمثيل الضعيف للعالم الحقيقي – إلى تفاقم تنوع النموذج بعد بضعة أجيال من التدريب، وفقًا للباحثين (على الرغم من أنهم وجدوا أيضًا أن الخلط بين القليل من بيانات العالم الحقيقي يساعد في التخفيف من هذا الأمر).
ويرى كيز مخاطر إضافية في النماذج المعقدة، مثل نموذج o1 الخاص بشركة OpenAI، والذي يعتقد أنه يمكن أن ينتج هلوسة يصعب اكتشافها في بياناتها الاصطناعية. وهذا بدوره يمكن أن يقلل من دقة النماذج المدربة على البيانات، خاصة إذا لم يكن من السهل تحديد مصادر الهلوسة.
“النماذج المعقدة تهلوس؛ وأضاف كييز أن البيانات التي تنتجها النماذج المعقدة تحتوي على هلاوس. “وباستخدام نموذج مثل o1، لا يستطيع المطورون أنفسهم بالضرورة تفسير سبب ظهور القطع الأثرية.”
يمكن أن تؤدي الهلوسة المركبة إلى نماذج ثرثرة. تكشف دراسة نشرت في مجلة Nature كيفية إنشاء النماذج، التي يتم تدريبها على البيانات المليئة بالأخطاء أكثر من ذلك البيانات المليئة بالأخطاء، وكيف تؤدي حلقة ردود الفعل هذه إلى تدهور الأجيال القادمة من النماذج. وجد الباحثون أن النماذج تفقد فهمها للمعرفة الباطنية على مر الأجيال، حيث تصبح أكثر عمومية وغالبًا ما تنتج إجابات لا علاقة لها بالأسئلة التي تطرح عليها.
تظهر دراسة متابعة أن الأنواع الأخرى من النماذج، مثل مولدات الصور، ليست محصنة ضد هذا النوع من الانهيار:
ويوافق سولديني على أنه لا ينبغي الوثوق بالبيانات الاصطناعية “الخام”، على الأقل إذا كان الهدف هو تجنب تدريب برامج الدردشة النسيان ومولدات الصور المتجانسة. ويقول إن استخدامها “بشكل آمن” يتطلب مراجعتها وتنسيقها وتصفيتها بشكل شامل، وإقرانها بشكل مثالي ببيانات حقيقية جديدة – تمامًا كما تفعل مع أي مجموعة بيانات أخرى.
قد يؤدي الفشل في القيام بذلك في النهاية إلى انهيار النموذج، حيث يصبح النموذج أقل “إبداعًا” – وأكثر انحيازًا – في مخرجاته، مما يؤدي في النهاية إلى الإضرار بوظائفه بشكل خطير. وعلى الرغم من إمكانية التعرف على هذه العملية وإيقافها قبل أن تصبح جدية، إلا أنها تنطوي على مخاطرة.
وقال سولديني: “يحتاج الباحثون إلى فحص البيانات التي تم إنشاؤها، وتكرار عملية الإنشاء، وتحديد الضمانات لإزالة نقاط البيانات منخفضة الجودة”. «إن خطوط أنابيب البيانات الاصطناعية ليست آلة ذاتية التحسين؛ ويجب فحص مخرجاتها وتحسينها بعناية قبل استخدامها للتدريب.
قال سام ألتمان، الرئيس التنفيذي لشركة OpenAI، ذات مرة إن الذكاء الاصطناعي سوف ينتج يومًا ما بيانات اصطناعية جيدة بما يكفي لتدريب نفسه بشكل فعال. ولكن – على افتراض أن ذلك ممكن – فإن التكنولوجيا غير موجودة بعد. لم يصدر أي مختبر رئيسي للذكاء الاصطناعي نموذجًا تم تدريبه على البيانات الاصطناعية وحدها.
على الأقل في المستقبل المنظور، يبدو أننا سنحتاج إلى البشر في الحلقة مكان ما للتأكد من أن تدريب النموذج لا ينحرف.
اكتشاف المزيد من موقع شعاع للمعلوماتية
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.