كما كتبت مؤخرًا، يتم جلب نماذج الذكاء الاصطناعي التوليدية بشكل متزايد إلى أماكن الرعاية الصحية، وربما في بعض الحالات قبل الأوان. يعتقد المتبنون الأوائل أنهم سيفتحون المزيد من الكفاءة مع الكشف عن الرؤى التي قد يتم تفويتها لولا ذلك. وفي الوقت نفسه، يشير النقاد إلى أن هذه النماذج بها عيوب وتحيزات يمكن أن تساهم في نتائج صحية أسوأ.
ولكن هل هناك طريقة كمية لمعرفة مدى فائدة النموذج أو ضرره عند تكليفه بأشياء مثل تلخيص سجلات المرضى أو الإجابة على الأسئلة المتعلقة بالصحة؟
تقترح شركة Hugging Face، الشركة الناشئة العاملة في مجال الذكاء الاصطناعي، حلاً في اختبار قياسي تم إصداره حديثًا يسمى Open Medical-LLM. تم إنشاء Open Medical-LLM بالشراكة مع باحثين في منظمة Open Life Science AI غير الربحية ومجموعة معالجة اللغات الطبيعية بجامعة إدنبرة، ويهدف إلى توحيد تقييم أداء نماذج الذكاء الاصطناعي التوليدية في مجموعة من المهام المتعلقة بالطب.
Open Medical-LLM ليس من الصفر المعيار في حد ذاته، بل هو عبارة عن تجميع لمجموعات الاختبار الحالية – MedQA، وPubMedQA، وMedMCQA وما إلى ذلك – المصممة لاستكشاف نماذج المعرفة الطبية العامة والمجالات ذات الصلة، مثل علم التشريح، وعلم الصيدلة، وعلم الوراثة، والممارسة السريرية. يحتوي المعيار على أسئلة متعددة الاختيارات وأسئلة مفتوحة تتطلب تفكيرًا وفهمًا طبيًا، مستمدًا من مواد تشمل اختبارات الترخيص الطبي الأمريكية والهندية وبنوك أسئلة اختبار الأحياء في الكليات.
“[Open Medical-LLM] يمكّن الباحثين والممارسين من تحديد نقاط القوة والضعف في الأساليب المختلفة، ودفع المزيد من التقدم في هذا المجال، والمساهمة في النهاية في تحسين رعاية المرضى ونتائجهم،” كما كتب Hugging Face في منشور بالمدونة.
تضع Hugging Face المعيار على أنه “تقييم قوي” لنماذج الذكاء الاصطناعي التوليدية المرتبطة بالرعاية الصحية. لكن بعض الخبراء الطبيين على وسائل التواصل الاجتماعي حذروا من وضع الكثير من المخزون في Open Medical-LLM، خشية أن يؤدي ذلك إلى عمليات نشر غير مدروسة.
وفي برنامج X، أشار ليام مكوي، وهو طبيب مقيم في طب الأعصاب بجامعة ألبرتا، إلى أن الفجوة بين “البيئة المفتعلة” للإجابة على الأسئلة الطبية وبين فِعلي يمكن أن تكون الممارسة السريرية كبيرة جدًا.
وافقت عالمة أبحاث Hugging Face كليمنتين فورييه – التي شاركت في تأليف منشور المدونة – على ذلك.
“يجب استخدام لوحات المتصدرين هذه فقط كتقدير أولي لها [generative AI model] لاستكشاف حالة استخدام معينة، ولكن هناك حاجة دائمًا إلى مرحلة أعمق من الاختبار لفحص حدود النموذج وأهميته في الظروف الحقيقية. [models] لا ينبغي على الإطلاق أن يستخدمها المرضى بمفردهم، ولكن بدلاً من ذلك يجب تدريبهم ليصبحوا أدوات دعم للأطباء.
إنه يعيد إلى الأذهان تجربة Google منذ عدة سنوات في محاولتها تقديم أداة فحص الذكاء الاصطناعي لاعتلال الشبكية السكري إلى أنظمة الرعاية الصحية في تايلاند.
كما أفاد ديفين في عام 2020، أنشأت جوجل نظامًا للتعلم العميق يقوم بمسح صور العين، بحثًا عن دليل على اعتلال الشبكية – وهو السبب الرئيسي لفقدان البصر. ولكن على الرغم من الدقة النظرية العالية، أثبتت الأداة أنها غير عملية في الاختبارات الواقعية، مما أدى إلى إحباط المرضى والممرضات على حد سواء بنتائج غير متسقة ونقص عام في الانسجام مع الممارسات على أرض الواقع.
ومن الجدير بالذكر أنه من بين 139 جهازًا طبيًا مرتبطًا بالذكاء الاصطناعي وافقت عليها إدارة الغذاء والدواء الأمريكية حتى الآن، لا يستخدم أي منها الذكاء الاصطناعي التوليدي. من الصعب للغاية اختبار كيفية ترجمة أداء أداة الذكاء الاصطناعي التوليدية في المختبر إلى المستشفيات والعيادات الخارجية، وربما الأهم من ذلك، كيف يمكن أن تتجه النتائج بمرور الوقت.
هذا لا يعني أن Open Medical-LLM ليس مفيدًا أو مفيدًا. إن قائمة المتصدرين للنتائج، إن لم يكن هناك شيء آخر، هي بمثابة تذكير بكيفية القيام بذلك سيئة نماذج تجيب على الأسئلة الصحية الأساسية. لكن Open Medical-LLM – وليس أي معيار آخر في هذا الشأن – يعد بديلاً للاختبارات الواقعية المدروسة بعناية.
اكتشاف المزيد من موقع شعاع للمعلوماتية
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.