مرحبًا يا رفاق، مرحبًا بكم في النشرة الإخبارية المنتظمة للذكاء الاصطناعي الخاصة بـ TechCrunch. إذا كنت تريد أن يصل هذا إلى بريدك الوارد كل يوم أربعاء، فقم بالتسجيل هنا.
هذا الأسبوع في مجال الذكاء الاصطناعي، برزت البيانات الاصطناعية على الساحة.
قدمت OpenAI يوم الخميس الماضي Canvas، وهي طريقة جديدة للتفاعل مع ChatGPT، منصة الدردشة الآلية المدعومة بالذكاء الاصطناعي. يفتح Canvas نافذة بها مساحة عمل لمشاريع الكتابة والبرمجة. يمكن للمستخدمين إنشاء نص أو رمز في Canvas، ثم، إذا لزم الأمر، تمييز الأقسام لتحريرها باستخدام ChatGPT.
من وجهة نظر المستخدم، يعد Canvas تحسينًا كبيرًا لجودة الحياة. ولكن ما معظم المثير للاهتمام حول هذه الميزة بالنسبة لنا هو النموذج المضبوط الذي يعمل عليها. تقول OpenAI إنها صممت نموذج GPT-4o الخاص بها باستخدام البيانات الاصطناعية “لتمكين تفاعلات المستخدم الجديدة” في Canvas.
“لقد استخدمنا تقنيات توليد بيانات اصطناعية جديدة، مثل استخلاص المخرجات من معاينة o1 الخاصة بـ OpenAI، لضبط GPT-4o لفتح اللوحة القماشية، وإجراء تعديلات مستهدفة، وترك تعليقات عالية الجودة مضمّنة،” رئيس منتج ChatGPT، نيك تورلي. كتب في منشور على X. “لقد سمح لنا هذا النهج بتحسين النموذج بسرعة وتمكين تفاعلات جديدة للمستخدم، كل ذلك دون الاعتماد على البيانات التي أنشأها الإنسان.”
OpenAI ليست شركة التكنولوجيا الكبرى الوحيدة التي تعتمد بشكل متزايد على البيانات الاصطناعية لتدريب نماذجها.
في تطوير Movie Gen، وهي مجموعة من الأدوات المدعومة بالذكاء الاصطناعي لإنشاء وتحرير مقاطع الفيديو، اعتمدت Meta جزئيًا على التسميات التوضيحية الاصطناعية التي تم إنشاؤها بواسطة فرع من نماذج Llama 3. قامت الشركة بتجنيد فريق من المعلقين البشريين لإصلاح الأخطاء وإضافة المزيد من التفاصيل إلى هذه التسميات التوضيحية، ولكن الجزء الأكبر من العمل الأساسي كان آليًا إلى حد كبير.
قال سام ألتمان، الرئيس التنفيذي لشركة OpenAI، إن الذكاء الاصطناعي سوف ينتج يومًا ما بيانات اصطناعية جيدة بما يكفي لتدريب نفسه بشكل فعال. وسيكون ذلك مفيدًا لشركات مثل OpenAI، التي تنفق ثروة على المفسرين البشريين وتراخيص البيانات.
قامت Meta بضبط نماذج Llama 3 بنفسها باستخدام البيانات الاصطناعية. ويقال إن OpenAI تحصل على بيانات التدريب الاصطناعية من o1 لنموذج الجيل التالي، الذي يحمل الاسم الرمزي Orion.
لكن تبني نهج “البيانات الاصطناعية أولاً” يأتي محفوفًا بالمخاطر. وكما أشار لي أحد الباحثين مؤخراً، فإن النماذج المستخدمة لتوليد البيانات الاصطناعية تهذي حتماً (أي تختلق الأشياء) وتحتوي على تحيزات وقيود. تظهر هذه العيوب في البيانات التي تم إنشاؤها بواسطة النماذج.
ومن ثم فإن استخدام البيانات الاصطناعية بشكل آمن يتطلب تنظيمها وتصفيتها بشكل كامل، كما هي الممارسة المعتادة مع البيانات التي يولدها الإنسان. قد يؤدي الفشل في القيام بذلك إلى انهيار النموذج، حيث يصبح النموذج أقل “إبداعًا” – وأكثر انحيازًا – في مخرجاته، مما يؤدي في النهاية إلى الإضرار بوظائفه بشكل خطير.
هذه ليست مهمة سهلة على نطاق واسع. ولكن مع زيادة تكلفة بيانات التدريب في العالم الحقيقي (ناهيك عن صعوبة الحصول عليها)، قد يرى بائعو الذكاء الاصطناعي أن البيانات الاصطناعية هي المسار الوحيد القابل للتطبيق للمضي قدمًا. دعونا نأمل أن يتوخوا الحذر في اعتماده.
أخبار
الإعلانات في نظرة عامة على الذكاء الاصطناعي: تقول Google إنها ستبدأ قريبًا في عرض الإعلانات في AI Overviews، وهي الملخصات التي تم إنشاؤها بواسطة الذكاء الاصطناعي والتي توفرها لبعض استعلامات بحث Google.
Google Lens، الآن مع الفيديو: تمت ترقية Lens، وهو تطبيق البحث المرئي من Google، ليتمتع بالقدرة على الإجابة على الأسئلة في الوقت الفعلي تقريبًا حول البيئة المحيطة بك. يمكنك التقاط مقطع فيديو عبر Lens وطرح أسئلة حول الأشياء محل الاهتمام في الفيديو. (من المحتمل أن تأتي الإعلانات لهذا أيضًا.)
من سورا إلى ديب مايند: غادر تيم بروكس، أحد رواد مولد الفيديو Sora التابع لشركة OpenAI، للعمل مع شركة Google DeepMind المنافسة. أعلن بروكس في منشور على موقع X أنه سيعمل على تقنيات توليد الفيديو و”محاكيات العالم”.
تدفق الأمر: أطلقت شركة Black Forest Labs، الشركة الناشئة المدعومة من Andreessen Horowitz والتي تقف خلف مكون إنشاء الصور في مساعد Grok الخاص بـ xAI، واجهة برمجة التطبيقات (API) في مرحلة تجريبية – وأصدرت نموذجًا جديدًا.
ليست شفافة جدا: يتطلب مشروع قانون AB-2013 الذي تم إقراره مؤخرًا في ولاية كاليفورنيا من الشركات التي تعمل على تطوير أنظمة الذكاء الاصطناعي التوليدية نشر ملخص رفيع المستوى للبيانات التي استخدمتها لتدريب أنظمتها. وحتى الآن، هناك عدد قليل من الشركات على استعداد للقول ما إذا كانت ستلتزم أم لا. ويمنحهم القانون حتى يناير 2026.
ورقة بحثية للأسبوع
لقد عمل باحثو Apple بجد على التصوير الفوتوغرافي الحسابي لسنوات، وأحد الجوانب المهمة في هذه العملية هو رسم الخرائط العميقة. تم إجراء ذلك في الأصل باستخدام التصوير المجسم أو مستشعر عمق مخصص مثل وحدة الليدار، ولكن هذه الأجهزة تميل إلى أن تكون باهظة الثمن ومعقدة وتستهلك مساحة داخلية قيمة. من الأفضل القيام بذلك بشكل صارم في البرامج بعدة طرق. هذا هو ما تدور حوله هذه الورقة البحثية Depth Pro.
أليكسي بوشكوفسكي وآخرون. مشاركة طريقة لتقدير العمق أحادي اللقطة بتفاصيل عالية، مما يعني أنها تستخدم كاميرا واحدة، ولا تحتاج إلى تدريب على أشياء محددة (مثل أنها تعمل على جمل على الرغم من عدم رؤيتها مطلقًا)، وتلتقط حتى الجوانب الصعبة مثل خصلات من الشعر. من المؤكد تقريبًا أنه قيد الاستخدام على أجهزة iPhone في الوقت الحالي (على الرغم من أنه نسخة محسنة ومصممة خصيصًا)، ولكن يمكنك تجربته إذا كنت تريد إجراء تقدير متعمق صغير خاص بك باستخدام الكود الموجود في صفحة GitHub هذه.
نموذج الاسبوع
أصدرت Google نموذجًا جديدًا في عائلة Gemini، Gemini 1.5 Flash-8B، والذي تدعي أنه من بين أكثر منتجاتها أداءً.
إصدار “مقطر” من Gemini 1.5 Flash، والذي تم تحسينه بالفعل من أجل السرعة والكفاءة، تكلفة استخدام Gemini 1.5 Flash-8B أقل بنسبة 50%، وله زمن وصول أقل، ويأتي مع حدود معدل أعلى 2x في AI Studio، وهو برنامج Google الذي يركز على الذكاء الاصطناعي بيئة المطور.
“يتوافق Flash-8B تقريبًا مع أداء طراز 1.5 Flash الذي تم إطلاقه في مايو عبر العديد من المعايير،” كتبت Google في منشور بالمدونة. “نماذجنا [continue] لنكون على علم بتعليقات المطورين واختبارنا الخاص لما هو ممكن.
يعد Gemini 1.5 Flash-8B مناسبًا تمامًا للدردشة والتحويل الصوتي والترجمة، كما تقول Google، أو أي مهمة أخرى “بسيطة” و”كبيرة الحجم”. بالإضافة إلى AI Studio، يتوفر النموذج أيضًا مجانًا من خلال Google Gemini API، بمعدل محدود يبلغ 4000 طلب في الدقيقة.
الاستيلاء على حقيبة
بالحديث عن الذكاء الاصطناعي الرخيص، أصدرت Anthropic ميزة جديدة، وهي واجهة برمجة التطبيقات الخاصة بـMessage Batches، والتي تتيح للمطورين معالجة كميات كبيرة من استعلامات نماذج الذكاء الاصطناعي بشكل غير متزامن مقابل أموال أقل.
على غرار طلبات التجميع التي تقدمها Google لواجهة برمجة تطبيقات Gemini، يمكن للمطورين الذين يستخدمون واجهة برمجة تطبيقات الرسائل الخاصة بـ Anthropic إرسال دفعات تصل إلى حجم معين – 10000 استعلام – لكل دفعة. تتم معالجة كل دفعة خلال فترة 24 ساعة وبتكلفة أقل بنسبة 50% من استدعاءات واجهة برمجة التطبيقات القياسية.
تقول Anthropic أن واجهة برمجة التطبيقات الخاصة بـMessage Batches مثالية للمهام “واسعة النطاق” مثل تحليل مجموعة البيانات، وتصنيف مجموعات البيانات الكبيرة، وتقييمات النماذج. “على سبيل المثال،” كتبت الشركة في منشور، “يصبح تحليل مستودعات مستندات الشركة بأكملها – والتي قد تتضمن ملايين الملفات – أكثر جدوى من الناحية الاقتصادية من خلال الاستفادة من [this] خصم الدفعة.”
واجهة برمجة التطبيقات الخاصة بـMessage Batches متاحة في الإصدار التجريبي العام مع دعم لنماذج Anthropic’s Claude 3.5 Sonnet وClaude 3 Opus وClaude 3 Haiku.
اكتشاف المزيد من موقع شعاع للمعلوماتية
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.