Clear Sky Science · ar

تقييم دقيق لنماذج اللغة الكبيرة في الطب باستخدام النمذجة التشخيصية الإدراكية غير المعلمية

· العودة إلى الفهرس

لماذا يهم هذا في زيارات الطبيب المستقبلية

تتحرك أنظمة الذكاء الاصطناعي القادرة على الكلام والكتابة، والمعروفة باسم نماذج اللغة الكبيرة، بسرعة من مختبرات البحث إلى المستشفيات. يمكنها بالفعل مساعدة الأطباء في قراءة السجلات المعقدة، واقتراح علاجات، والإجابة عن الأسئلة الطبية. لكن معظم اختبارات هذه الأنظمة تعطي مجرد نتيجة إجمالية واحدة، تشبه درجة الامتحان النهائي، ما قد يخفي نقاط ضعف خطيرة. تُظهر هذه الدراسة طريقة جديدة للاطلاع داخل تلك الدرجات وكشف المجالات الطبية التي تفهمها هذه النماذج فعلاً — وأين قد تعرض المرضى للمخاطر.

النظر إلى ما وراء درجة اختبار واحدة

حالياً، يُقاس معظم الذكاء الاصطناعي الطبي بعدد الأسئلة التي يجيب عليها بشكل صحيح في اختبارات مصممة على غرار امتحانات ترخيص الأطباء. هذا الأسلوب بسيط لكنه خشن. قد يحقق النموذج درجة إجمالية عالية مع بقاء ضعف في مجال حرج مثل تحليل نظم القلب أو أمراض الكبد. في العيادات الحقيقية، يمكن أن تكون لمثل هذه الفجوات عواقب مميتة. يجادل المؤلفون بأن الاستخدام الآمن للذكاء الاصطناعي في الطب يتطلب تقييماً أعمق وأكثر دقة—تقييماً يمكنه رسم ملف مهارات مفصّل بدلاً من منح درجة واحدة قد تكون مضللة.

Figure 1
الشكل 1.

طريقة أذكى لاختبار المعرفة الطبية

لتحقيق ذلك، يستعير الباحثون أدوات من علم نفس التعليم تُعرف بالتقييم التشخيصي الإدراكي. بدل التعامل مع كل سؤال في الامتحان كما لو كان يقيس نفس القدرة العامة المبهمة، تقسم هذه الطريقة المعرفة الطبية إلى لبنات محددة، مثل أمراض القلب، والتصوير الطبي، أو الرعاية الطارئة. تُوضع علامة على كل سؤال متعدد الخيارات بالمزيج الدقيق من المهارات التي يتطلبها. باستخدام تقنية إحصائية غير معلمية، يقارن الفريق كيف يجيب النموذج على آلاف مثل هذه الأسئلة مع أنماط الاستجابة المثالية. ومن هذا، يستنتجون ما إذا كان النموذج قد «أتقن» كل مهارة أساسية، تماماً كما قد يُظهر تقرير درجات مفصل نقاط القوة والضعف عبر المواد الدراسية.

اختبار 41 نموذج ذكاء اصطناعي في امتحان طبي

اختبر الفريق 41 نموذج لغة مستخدماً على نطاق واسع، شملت أنظمة تجارية ونماذج مفتوحة المصدر، على 2809 أسئلة تم التحقق منها بعناية ومستقاة من بنك أسئلة امتحان طبي وطني صيني. تغطي هذه الأسئلة 22 مجالاً فرعياً طبياً وصُممت للطلاب على وشك خوض امتحان ترخيص الأطباء. لكل سؤال إجابة صحيحة واحدة وتمت وسمته من قبل خبراء لتوضيح التخصصات التي يتناولها. باستخدام طريقتهم التشخيصية، قدّر الباحثون، لكل نموذج، عدد هذه السمات الطبية الـ22 التي أتقنها فعلياً، وليس فقط عدد الأسئلة التي أجابها بشكل صحيح.

معرفة عامة قوية لكن ثغرات واضحة

النتائج مثيرة للإعجاب ومقلقة في آن واحد. حققت النماذج الأفضل أداءً، مثل عدة أنظمة تجارية رائدة، إجابات صحيحة في معظم الأسئلة وأظهرت إتقاناً لـ20 من أصل 22 مجالاً طبياً. عبر كل النماذج، كان الأداء ممتازاً في العديد من التخصصات الشائعة، محققاً إتقاناً كاملاً في 15 مجالاً بما في ذلك أمراض القلب، وطب الأمراض الجلدية، والغدد الصماء. ومع ذلك، كشف التحليل الدقيق عن فجوات صارخة في مجالات أخرى. تأخر التصوير الطبي بمعدلات إتقان أقل بكثير، ولم يُتَقن مجالان فرعيان—تخطيط القلب والكلام عن فرط ضغط الدم والدهون وكذا اضطرابات الكبد—على يد أي نموذج. والأهم من ذلك، أن بعض النماذج الأصغر شاركت نفس المهارات المتقنة مع نماذج أكبر بكثير، مما يبيّن أن الحجم وحده لا يضمن معرفة طبية واسعة وموثوقة.

Figure 2
الشكل 2.

اختيار الأداة المناسبة للمهمة المناسبة

تهم هذه الملفات التفصيلية لأن النماذج التي تظهر درجات إجمالية متشابهة قد تمتلك أنماطاً مختلفة تماماً من نقاط القوة والضعف. قد يكون نظام قوي في علم الأعصاب وضعيفاً في علم الأدوية، بينما يُظهر آخر النمط المعاكس. بالنسبة لقادة المستشفيات، يعني هذا أنهم لا يمكنهم اختيار مساعد ذكي بأمان اعتماداً فقط على درجته في الامتحان أو عدد المعاملات. بدلاً من ذلك، يحتاجون إلى نتائج تشخيصية مثل تلك الواردة في هذه الدراسة لمطابقة كل نموذج بمهام سريرية محددة، وتصميم سير عمل يراجع فيه المتخصصون البشريون مخرجات الذكاء الاصطناعي في المناطق عالية المخاطر حيث يُعرف عن النموذج ضعفه.

ماذا يعني هذا للمرضى والممارسين

بعبارات بسيطة، تستنتج الدراسة أن «الدرجة» العالية في الاختبارات الطبية لا تضمن أن نظام الذكاء الاصطناعي آمن للاستخدام في جميع أجزاء الطب. تعمل المقاربة الجديدة أشبه بفحص صحي شامل للذكاء الاصطناعي نفسه، تكشف أي الأعضاء—وفي هذه الحالة التخصصات الطبية—صحية وأيها تحتاج انتباهاً. من خلال الكشف عن فجوات مخفية في مجالات حرجة مثل تفسير تخطيط القلب وأمراض الكبد، تزود الطريقة المستشفيات والهيئات التنظيمية والمطورين بخريطة طريق عملية: استخدموا النماذج فقط حيث ثبتت قوتها، أبقوا البشر في حلقة القرار في المناطق التي تبقى فيها نقاط ضعف، وركّزوا التدريب المستقبلي على أخطر النقاط العمياء. يجادل المؤلفون بأن هذا النوع من التقييم الدقيق ليس مفيداً فحسب—بل ضروري قبل الوثوق بالذكاء الاصطناعي في رعاية المرضى.

الاستشهاد: Zheng, T., Liu, J., Feng, S. et al. Fine-grained evaluation of large language models in medicine using non-parametric cognitive diagnostic modeling. Sci Rep 16, 6460 (2026). https://doi.org/10.1038/s41598-026-36627-7

الكلمات المفتاحية: الذكاء الاصطناعي الطبي, نماذج اللغة الكبيرة, السلامة السريرية, تقييم النماذج, الاختبارات التشخيصية