تم استخدام الاستطلاعات للحصول على رؤى حول السكان والمنتجات والرأي العام منذ زمن سحيق. وبينما قد تكون المنهجيات قد تغيرت عبر آلاف السنين، إلا أن شيئًا واحدًا ظل ثابتًا: الحاجة إلى الناس، الكثير من الناس.
ولكن ماذا لو لم تتمكن من العثور على عدد كافٍ من الأشخاص لبناء مجموعة عينة كبيرة بما يكفي لتحقيق نتائج ذات معنى؟ أو، ماذا لو كان بإمكانك العثور على عدد كافٍ من الأشخاص، ولكن قيود الميزانية تحد من عدد الأشخاص الذين يمكنك الاستعانة بهم وإجراء مقابلات معهم؟
هذا هو المكان الذي يريد Fairgen المساعدة فيه. تطلق الشركة الإسرائيلية الناشئة اليوم منصة تستخدم “الذكاء الاصطناعي الإحصائي” لتوليد بيانات اصطناعية تقول إنها جيدة مثل البيانات الحقيقية. تعلن الشركة أيضًا عن جمع تبرعات جديدة بقيمة 5.5 مليون دولار من Maverick Ventures Israel، وThe Creator Fund، وTal Ventures، وIgnia، وحفنة من المستثمرين الملائكيين، ليصل إجمالي الأموال التي تم جمعها منذ البداية إلى 8 ملايين دولار.
“بيانات مزيفة”
قد تكون البيانات بمثابة شريان الحياة للذكاء الاصطناعي، ولكنها كانت أيضًا حجر الزاوية في أبحاث السوق منذ الأبد. لذلك عندما يتصادم العالمان، كما هو الحال في عالم فيرجن، تصبح الحاجة إلى بيانات عالية الجودة أكثر وضوحًا.
تأسست شركة Fairgen في تل أبيب بإسرائيل عام 2021، وكانت تركز في السابق على معالجة التحيز في الذكاء الاصطناعي. ولكن في أواخر عام 2022، ركزت الشركة على منتج جديد، Fairboost، والذي تطلقه الآن كنسخة تجريبية.
يعد Fairboost بـ “تعزيز” مجموعة بيانات أصغر بما يصل إلى ثلاث مرات، مما يتيح رؤى أكثر تفصيلاً في المجالات المتخصصة التي قد يكون الوصول إليها صعبًا أو مكلفًا للغاية. وباستخدام هذا، يمكن للشركات تدريب نموذج التعلم الآلي العميق لكل مجموعة بيانات تقوم بتحميلها إلى منصة Fairgen، مع أنماط التعلم الإحصائية للذكاء الاصطناعي عبر قطاعات الاستطلاع المختلفة.
إن مفهوم “البيانات الاصطناعية” – البيانات التي تم إنشاؤها بشكل مصطنع وليس من أحداث العالم الحقيقي – ليس جديدا. تعود جذورها إلى الأيام الأولى للحوسبة، عندما تم استخدامها لاختبار البرامج والخوارزميات، ومحاكاة العمليات. لكن البيانات الاصطناعية، كما نفهمها اليوم، اتخذت حياة خاصة بها، وخاصة مع ظهور التعلم الآلي، حيث يتم استخدامها بشكل متزايد لتدريب النماذج. يمكننا معالجة مشكلات ندرة البيانات بالإضافة إلى مخاوف خصوصية البيانات باستخدام البيانات التي تم إنشاؤها بشكل مصطنع والتي لا تحتوي على معلومات حساسة.
Fairgen هي أحدث شركة ناشئة تضع البيانات الاصطناعية على المحك، ولديها أبحاث السوق كهدف أساسي لها. تجدر الإشارة إلى أن Fairgen لا تنتج بيانات من لا شيء، أو تلقي الملايين من الدراسات الاستقصائية التاريخية في بوتقة انصهار تعمل بالذكاء الاصطناعي – يحتاج باحثو السوق إلى إجراء دراسة استقصائية لعينة صغيرة من السوق المستهدفة، ومن ذلك، Fairgen يحدد أنماطًا لتوسيع العينة. وتقول الشركة إنها تستطيع ضمان تعزيز العينة الأصلية بمقدار الضعف على الأقل، ولكن في المتوسط، يمكنها تحقيق تعزيز بمقدار ثلاثة أضعاف.
بهذه الطريقة، قد يتمكن فيرجن من إثبات أن شخصًا ما من فئة عمرية معينة و/أو مستوى دخل معين يميل أكثر للإجابة على سؤال بطريقة معينة. أو قم بدمج أي عدد من نقاط البيانات لاستقراءها من مجموعة البيانات الأصلية. يتعلق الأمر بشكل أساسي بتوليد ما يقوله صامويل كوهين، المؤسس المشارك والرئيس التنفيذي لشركة Fairgen، عن “شرائح بيانات أقوى وأكثر قوة، مع هامش خطأ أقل”.
وأوضح كوهين لموقع TechCrunch: “كان الإدراك الرئيسي هو أن الناس أصبحوا متنوعين بشكل متزايد – تحتاج العلامات التجارية إلى التكيف مع ذلك، وعليهم فهم شرائح عملائهم”. “الشرائح مختلفة تمامًا – يفكر الجيل Z بشكل مختلف عن كبار السن. ولكي تكون قادرًا على فهم السوق على مستوى القطاع، فإن الأمر يتطلب الكثير من المال، ويستغرق الكثير من الوقت والموارد التشغيلية. وهنا أدركت أن نقطة الألم كانت. كنا نعلم أن البيانات الاصطناعية لها دور تلعبه هناك.
أحد الانتقادات الواضحة – وهو النقد الذي تعترف الشركة بأنها واجهته – هو أن كل هذا يبدو وكأنه اختصار هائل للاضطرار إلى الخروج إلى الميدان، وإجراء مقابلات مع أشخاص حقيقيين، وجمع آراء حقيقية.
من المؤكد أن أي مجموعة ممثلة تمثيلا ناقصا يجب أن تشعر بالقلق من أن أصواتها الحقيقية يتم استبدالها بأصوات مزيفة؟
وقال فرناندو زاتز، رئيس قسم النمو في فيرجن، لـ TechCrunch: “كل عميل تحدثنا إليه في مجال البحث لديه نقاط عمياء ضخمة – جماهير يصعب الوصول إليها تمامًا”. “إنهم في الواقع لا يبيعون المشاريع لأنه لا يوجد عدد كافٍ من الأشخاص، خاصة في عالم متنوع بشكل متزايد حيث يوجد الكثير من تجزئة السوق. وفي بعض الأحيان لا يمكنهم الذهاب إلى بلدان معينة؛ لا يمكنهم الدخول في فئات سكانية محددة، لذا فهم يخسرون في الواقع المشاريع لأنهم لا يستطيعون الوصول إلى حصصهم. لديهم الحد الأدنى لعدد [of respondents]وإذا لم يصلوا إلى هذا العدد لا يبيعون الرؤى».
Fairgen ليست الشركة الوحيدة التي تطبق الذكاء الاصطناعي التوليدي في مجال أبحاث السوق. قالت شركة Qualtrics العام الماضي إنها تستثمر 500 مليون دولار على مدى أربع سنوات لجلب الذكاء الاصطناعي التوليدي إلى منصتها، مع التركيز بشكل جوهري على البحث النوعي. ومع ذلك، فهو دليل آخر على أن البيانات الاصطناعية موجودة، وهي موجودة لتبقى.
ولكن التحقق من صحة النتائج سوف يلعب دوراً مهماً في إقناع الناس بأن هذا هو الاتفاق الحقيقي وليس مجرد إجراء لخفض التكاليف من شأنه أن يؤدي إلى نتائج دون المستوى الأمثل. يقوم Fairgen بذلك عن طريق مقارنة تعزيز العينة “الحقيقية” مع تعزيز العينة “الاصطناعية” – فهو يأخذ عينة صغيرة من مجموعة البيانات، ويستنبطها، ويضعها جنبًا إلى جنب مع الشيء الحقيقي.
قال كوهين: “مع كل عميل نسجله، نقوم بإجراء نفس النوع من الاختبار بالضبط”.
من الناحية الإحصائية
حصل كوهين على درجة الماجستير في العلوم الإحصائية من جامعة أكسفورد، ودرجة الدكتوراه في التعلم الآلي من جامعة كاليفورنيا في لندن، والتي قضى جزء منها فترة تسعة أشهر كعالم أبحاث في ميتا.
أحد المؤسسين المشاركين للشركة هو رئيس مجلس الإدارة بيني شنايدر، الذي كان يعمل سابقًا في مجال برمجيات المؤسسات، وله أربعة مخارج باسمه: Ravello إلى Oracle مقابل 500 مليون دولار في عام 2016؛ وخرجت من قمرانت إلى ريد هات مقابل 107 ملايين دولار في عام 2008؛ P-Cube لشركة Cisco مقابل 200 مليون دولار في عام 2004؛ وPentacom لشركة Cisco مقابل 118 دولارًا في عام 2000.
ثم هناك إيمانويل كانديس، أستاذ الإحصاء والهندسة الكهربائية في جامعة ستانفورد، الذي يعمل كمستشار علمي رئيسي لفيرجن.
يعد هذا العمود الفقري التجاري والرياضي نقطة بيع رئيسية لشركة تحاول إقناع العالم بأن البيانات المزيفة يمكن أن تكون بنفس جودة البيانات الحقيقية، إذا تم تطبيقها بشكل صحيح. وهذه أيضًا هي الطريقة التي يمكنهم من خلالها شرح الحدود والقيود المفروضة على تقنيتها بوضوح – ما هو الحجم الذي يجب أن تكون عليه العينات لتحقيق التعزيزات المثلى.
وفقًا لكوهين، فإنهم يحتاجون بشكل مثالي إلى ما لا يقل عن 300 مشارك حقيقي في الاستطلاع، ومن ذلك يمكن لـ Fairboost تعزيز حجم الشريحة التي لا تزيد عن 15٪ من الاستطلاع الأوسع.
وقال كوهين: “أقل من 15%، يمكننا أن نضمن تعزيزًا متوسطًا بمقدار 3 أضعاف بعد التحقق من صحته بمئات الاختبارات المتوازية”. “من الناحية الإحصائية، تكون المكاسب أقل دراماتيكية عندما تتجاوز 15%. تقدم البيانات بالفعل مستويات ثقة جيدة، ولا يمكن للمشاركين الاصطناعيين لدينا إلا أن يطابقوها أو يحققوا ارتفاعًا هامشيًا. من الناحية التجارية، لا توجد أيضًا نقطة ألم تتجاوز 15% – يمكن للعلامات التجارية بالفعل أن تتعلم من هذه المجموعات؛ إنهم عالقون فقط على المستوى المتخصص.
عامل عدم LLM
تجدر الإشارة إلى أن Fairgen لا تستخدم نماذج اللغات الكبيرة (LLMs)، وأن منصتها لا تولد ردودًا “باللغة الإنجليزية البسيطة” على غرار ChatGPT. والسبب في ذلك هو أن LLM سوف يستخدم الدروس المستفادة من عدد لا يحصى من مصادر البيانات الأخرى خارج معايير الدراسة، مما يزيد من فرص إدخال التحيز الذي لا يتوافق مع البحث الكمي.
تتمحور شركة Fairgen حول النماذج الإحصائية والبيانات الجدولية، ويعتمد تدريبها فقط على البيانات الموجودة في مجموعة البيانات التي تم تحميلها. ويتيح ذلك لباحثي السوق بشكل فعال توليد مستجيبين جدد وصناعيين من خلال الاستقراء من القطاعات المجاورة في الاستطلاع.
“نحن لا نستخدم أي ماجستير في القانون لسبب بسيط للغاية، وهو أننا إذا أردنا التدريب المسبق على الكثير من [other] قال كوهين: “الاستطلاعات، فإنها ستنقل فقط معلومات مضللة”. “لأنه قد يكون لديك حالات تم فيها تعلم شيء ما في استطلاع آخر، ونحن لا نريد ذلك. الأمر كله يتعلق بالموثوقية.”
فيما يتعلق بنموذج الأعمال، يتم بيع Fairgen كخدمة SaaS، حيث تقوم الشركات بتحميل استطلاعاتها بأي تنسيق منظم (.CSV أو .SAV) إلى منصة Fairgen المستندة إلى السحابة. وفقًا لكوهين، يستغرق تدريب النموذج على بيانات المسح المقدمة ما يصل إلى 20 دقيقة، اعتمادًا على عدد الأسئلة. يقوم المستخدم بعد ذلك بتحديد “شريحة” (مجموعة فرعية من المجيبين الذين يتشاركون في خصائص معينة) – على سبيل المثال، “الجيل Z الذي يعمل في الصناعة x،” – ثم يقوم Fairgen بتسليم ملف جديد منظم بشكل مماثل لملف التدريب الأصلي، بنفس الطريقة تمامًا الأسئلة، صفوف جديدة فقط.
يتم استخدام Fairgen من قبل BVA وشركة استطلاعات الرأي وأبحاث السوق الفرنسية IFOP، والتي قامت بالفعل بدمج تقنية الشركة الناشئة في خدماتها. يستخدم IFOP، الذي يشبه إلى حد ما مؤسسة غالوب في الولايات المتحدة، Fairgen لأغراض الاقتراع في الانتخابات الأوروبية، على الرغم من أن كوهين يعتقد أنه قد ينتهي به الأمر إلى استخدامه في الانتخابات الأمريكية في وقت لاحق من هذا العام أيضًا.
وقال كوهين: “إن IFOP هو في الأساس ختم موافقتنا، لأنه موجود منذ حوالي 100 عام”. “لقد تحققوا من صحة التكنولوجيا وكانوا شريكنا الأصلي في التصميم. نحن أيضًا نختبر أو نتكامل بالفعل مع بعض أكبر شركات أبحاث السوق في العالم، وهو أمر لا يُسمح لي بالحديث عنه بعد.
اكتشاف المزيد من موقع شعاع للمعلوماتية
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.