Clear Sky Science · ar

الأداء المقارن للنماذج اللغوية الكبيرة الحديثة والسابقة والمتدربين في طب الأطفال في أسئلة امتحان التدريب الداخلي

· العودة إلى الفهرس

لماذا هذا مهم للأطباء والعائلات

مع بدء ظهور أدوات الذكاء الاصطناعي في المستشفيات والكليات الطبية، يبرز سؤال أساسي بسيط: هل بإمكان هذه الأنظمة أن تضاهي بالفعل حكم الأطباء قيد التدريب، لا سيما عندما يتعلق الأمر بصحة الأطفال؟ تبحث هذه الدراسة في أداء عدة نماذج لغوية رائدة في أسئلة امتحانات طب الأطفال وما قد يعنيه ذلك للرعاية والتعليم في المستقبل.

اختبار الذكاء الاصطناعي على أسئلة امتحانية حقيقية

جمع الباحثون 498 سؤالاً من امتحانات التدريب الداخلي لطب الأطفال التي أُجريت في مستشفى أطفال كبير في كوريا بين 2016 و2023. تُستخدم هذه الامتحانات لقياس مدى تقدّم المتدربين خلال سنوات التدريب الأربع. كانت معظم الأسئلة اختياراً من متعدد وشملت مجموعة واسعة من التخصصات، من رعاية المواليد والعدوى إلى أمراض القلب والرعاية الحرجة. تضمن حوالي سؤال واحد من كل خمسة أسئلة صوراً طبية، مثل الأشعّة أو الفحوصات أو الصور السريرية، بينما اعتمدت الباقي على أوصاف مكتوبة فقط.

Figure 1. يُقارن أنظمة الذكاء الاصطناعي بمتدربي طب الأطفال في أسئلة مكتوبة تختبر معرفة صحة الأطفال.
Figure 1. يُقارن أنظمة الذكاء الاصطناعي بمتدربي طب الأطفال في أسئلة مكتوبة تختبر معرفة صحة الأطفال.

كيف قارنت الدراسة بين البشر والآلات

اختُبرت ستة نماذج لغوية معروفة، تمثل ثلاث عائلات رئيسية من الأنظمة وجيلين لكل عائلة: إصدارات سابقة وإصدارات أحدث بقدرات رؤية. طُعِمَت النماذج بكتيبات الامتحان الكاملة، وليس بأسئلة فردية، وكان عليها تبيّن بنفسها أي الأجزاء نص السؤال، وأيها خيارات الإجابة، وأيها صور. كُتبت الأسئلة أصلاً بالكورية مع مصطلحات طبية إنجليزية، وقد مُنحت ترجمات مدققة بعناية. تمّ تصنيف إجابات المتدربين والذكاء الاصطناعي بنفس قواعد التقييم، فاعتُبرت الإجابة صحيحة إذا طابَت مع الحل الرسمي أو مرادف مقبول. ولتقييم مدى ثبات الأنظمة، وُجّه كل مجموعة اختبار خمس مرات وحُسب الاتساق عبر التشغيلات.

مدى تفوق الذكاء الاصطناعي على متدربي طب الأطفال

لُخص الأداء كنسبة الأسئلة التي أُجيب عليها بشكل صحيح. كما هو متوقع، ارتفعت درجات البشر مع مستوى التدريب: أجاب المتدربون في السنة الأولى عن أكثر من نصف الأسئلة بدقة بسيطة، بينما وصل متدربو السنة الرابعة إلى نحو 70 بالمئة. تفوقت النماذج الحديثة إجمالاً، فحققت حوالي 78 بالمئة عبر كل الأسئلة وتفوقت بوضوح على أكبر المتدربين سنّاً. أداء الإصدارات السابقة من الذكاء الاصطناعي كان معادلاً لأداء المتدربين الأكبر سناً. عندما ركّز الباحثون على الأسئلة النصية فقط، تفوّقت النماذج الحديثة على متدربي السنة الرابعة بنحو 10 نقاط مئوية. كما كانت أنظمة الذكاء الاصطناعي ثابتة جداً بين التشغيلات، مع درجات شبه متطابقة في كل مرة.

Figure 2. تتعامل نماذج الذكاء الاصطناعي مع الأسئلة النصية أفضل من الأسئلة المعتمدة على الصور عند الإجابة عن مسائل امتحانات الأطفال.
Figure 2. تتعامل نماذج الذكاء الاصطناعي مع الأسئلة النصية أفضل من الأسئلة المعتمدة على الصور عند الإجابة عن مسائل امتحانات الأطفال.

أين لا تزال الذكاء الاصطناعي يواجه صعوبات مع الصور

تغير المشهد عندما دخلت الصور الطبية في المعادلة. في الأسئلة التي تضمنت صوراً، لم يتفوق أي من أنظمة الذكاء الاصطناعي على المتدربين الأكبر سناً. حققت النماذج الأحدث أداءً أفضل من سابقاتها ووصلت إلى دقة في منتصف سبعينيات بالمئة على هذه العناصر البصرية، لكن نتائجها لا تزال متأخرة مقارنةً بأدائها القوي على الأسئلة النصية فقط. ظل هذا النمط عبر أنواع مختلفة من الصور، بما في ذلك الأشعّة والفحوصات والصور السريرية، وعبر طيف واسع من مواضيع طب الأطفال. تتردد هذه النتائج مع أبحاث أخرى تشير إلى أنه بينما تُجيد النماذج اللغوية قراءة وفهم النص وتطبيق المنطق عليه، تظل قدرتها على فهم الصور الطبية، لا سيما لدى الأطفال، محدودة.

ماذا يعني هذا للرعاية والتدريب

يجادل المؤلفون بأن هذه النتائج مشجعة للتعليم لكنها تحذّر من الاستخدام السريري المباشر. تشير الدرجات العالية والثابتة في أسئلة الامتحان المكتوبة إلى أن هذه الأنظمة يمكن أن تكون شركاء مفيدين للدراسة، مقدمين للمتدربين في طب الأطفال أسئلة تدريبية سريعة وشروحات. ومع ذلك، فإن النجاح في اختبارات الاختيار من متعدد لا يضمن أداءً آمناً على المرضى الحقيقيين، حيث تكون المعلومات أكثر فوضى والقرارات أعقد وتفسير الصور أمر حاسم. بكلام موجز، تستطيع أدوات الذكاء الاصطناعي متعددة الوسائط اليوم أن تضاهي المتدربين الأكبر سناً في امتحانات طب الأطفال المكتوبة، لكنها ما تزال متأخرة في المهام التي تعتمد بكثافة على الصور وليست جاهزة بعد لاستبدال حكم الإنسان في العيادة.

الاستشهاد: Kim, M.J., Park, J.S. & Kang, S.H. Comparative performance of recent and prior large language models and pediatric residents on pediatric in-training examination questions. Sci Rep 16, 15849 (2026). https://doi.org/10.1038/s41598-026-44333-7

الكلمات المفتاحية: طب الأطفال, النماذج اللغوية الكبيرة, الامتحانات الطبية, دعم القرار الإكلينيكي, التعليم الطبي