Clear Sky Science · ar

تقييم مقارن متعدد المقاييس بين DeepSeek وChatGPT في امتحانات الترخيص الطبي الأمريكية مقابل الصينية للتعليم الطبي

· العودة إلى الفهرس

لماذا تهم أدوات المساعدة الذكية في الامتحانات

على أطباء المستقبل حول العالم اجتياز امتحانات ترخيص صارمة قبل أن يتمكنوا من علاج المرضى. وفي الوقت نفسه، أصبحت الدردشات الذكية القوية المبنية على نماذج اللغة الكبيرة شريكة شائعة في المذاكرة. تتناول هذه المقالة عن كثب كيفية تعامل نظامين من هذا النوع، DeepSeek وChatGPT، مع امتحانات الترخيص الطبي المستخدمة في الولايات المتحدة (USMLE) والصين (CNMLE)، وتطرح سؤالًا بسيطًا ذو عواقب كبيرة: هل يمكن لهذه الأدوات فعلاً أن تساهم في تعليم أطباء آمنين ومؤهلين—وإن أمكن، فبأي ضوابط؟

Figure 1
Figure 1.

امتحانان كبيران، أداتان قويتان

ركز الباحثون على USMLE وCNMLE، وهما امتحانان وطنيان يختبران نطاقًا واسعًا من المعرفة الطبية، من العلوم الأساسية إلى اتخاذ القرار السريري. جمعوا مئات الأسئلة الحقيقية: 243 من نموذج امتحان USMLE و300 من بنك أسئلة CNMLE، تغطي مواضيع مثل الباطنة والجراحة وطب الأطفال والطب النفسي والمزيد. أُزيلت الأسئلة التي تتطلب النظر إلى صور طبية حتى يواجه كلا النظامين تحديات نصية فقط. ثم استعلم الفريق نسختين من كل نظام—GPT‑4o‑mini لـ ChatGPT وDeepSeek‑R1 لـ DeepSeek—بكلتا اللغتين الإنجليزية والصينية، مستخدمين تعليمات بسيطة تحاكي كيفية طلب طالب حقيقي للمساعدة أثناء التحضير للامتحان.

من أجاب أفضل، وبأي درجة من الثبات؟

لمقارنة الأدوات بعدل، نفّذ الباحثون كل امتحان ثلاث مرات مع كل نظام، ثم قاسوا مدى توافق الإجابات مع المفتاح الرسمي. في أسئلة USMLE، أجاب DeepSeek بشكل صحيح نحو 93% من الوقت، متقدمًا قليلاً على ChatGPT بحوالي 90%. حافظ DeepSeek على تفوق مماثل في CNMLE، مسجلاً نحو 87% مقابل 79% لـ ChatGPT. تفوق DeepSeek على ChatGPT عبر جميع خطوات USMLE الثلاث، بما في ذلك قسم اتخاذ القرار السريري الأكثر تعقيدًا، وعبر جميع الوحدات الأربع في CNMLE، لا سيما في مجالات تحتوي على قدر كبير من العلوم الأساسية والمعرفة السريرية باللغة الصينية. كما فحص الفريق مدى استقرار الأدوات عبر تشغيلات متكررة، فوجدوا أن كلاهما أظهر ثباتًا عاليًا، مع تفوق طفيف آخر لـ DeepSeek.

التفكير بصوت عالٍ، لكنه أحيانًا ببطء شديد

غالبًا ما تعرض نماذج اللغة الحديثة تسلسلًا لعمليات الاستدلال خطوة بخطوة، مثل طالب يدوّن منطقَه. احتسب الباحثون عدد الأحرف في هذه الشروحات كمقياس تقريبي لكمية "التفكير" التي عرضها كل نظام. في USMLE، كان الأداتان متشابهتين، حيث قدّمتا شروحًا بطول مماثل. أما في CNMLE، فأنتج DeepSeek شروحات أطول بشكل ملحوظ، ما يوحي بسلاسل تفكير أعمق أو أكثر تفصيلًا عند التعامل مع أسئلة طبية معقدة باللغة الصينية. المقابل كان السرعة: استغرق DeepSeek وقتًا أطول لإكمال كلا الامتحانين، وخصوصًا CNMLE، بينما أجاب ChatGPT بسرعة أكبر. بعبارة أخرى، كان DeepSeek يميل إلى أن يكون أدق وأكثر إسهابًا، في حين فضل ChatGPT الكفاءة.

Figure 2
Figure 2.

الوعد والمخاطر وشبكة أمان جديدة

رغم درجاتهم العالية—أعلى في المتوسط من العديد من المتقدمين البشر للاختبارات—ظل كلا النظامين يرتكبان أخطاء ذات أهمية. في بعض الحالات اختارا علاجات تبدو معقولة لكنها خاطئة أو أساءا فهم مفاهيم دقيقة، وهو مشكلة معروفة تُسمى "الهلوسة"، حيث يختلق النموذج معلومات بثقة أو يطبقها بشكل خاطئ. وفي الوقت نفسه، أظهرا نقاط قوة مفاجئة، مثل رصد أسئلة امتحان معيبة لا تملك إجابة صحيحة على الإطلاق. وبما أن التعليم الطبي مرتبط ارتباطًا وثيقًا بسلامة المرضى، يجادل المؤلفون بوجوب التعامل مع هذه الأدوات كمساعدين لا كسلطات. لدعم الاستخدام الآمن، يقترحون "حلقة تحقق من الحقائق" تقنية تربط النموذج بمخطط معرفة طبية مبني بعناية. عندما يجيب النموذج عن سؤال، تُفكك ادعاءاته وتُراجع مقابل مصادر موثوقة مثل الإرشادات والكتب الدراسية، وتُمنح مستويات ثقة قبل عرضها على المتعلّمين.

ماذا يعني هذا لتدريب الأطباء المستقبلي

بالنسبة لغير الخبراء، الرسالة مشجعة وحذرة في آنٍ واحد. يقدّم DeepSeek وChatGPT أداءً بالفعل على مستوى أو أعلى من مستوى العديد من طلاب الطب في الامتحانات التحريرية، ما يوحي بإمكانية دعمهما في المذاكرة والأسئلة التطبيقية وحتى إعادة تصميم التدريس حول استدلال أكثر تفصيلًا خطوة بخطوة. ومع ذلك، فإن أخطاءهما—وغموض كيفية توصلها إلى الاستنتاجات—تعني أنهما لا يمكن أن يحلا محل المعلمين البشريين أو الأطباء المرخّصين. يتصور المؤلفون مستقبلاً تعمل فيه هذه الأنظمة كـ"مدربين مساعدين" تحت إشراف محكم للمتعلمين الطبيين، مدمجة في إطار يطالب بالأدلة، ويرصد الموثوقية، ويبقي الحكم البشري في الصدارة. إذا بُنيت وحُكّمت بعناية، يمكن أن تحوّل هذه المساعدات القائمة على الذكاء الاصطناعي تدريجيًا التعليم الطبي من حفظ بسيط إلى تعلم تفاعلي وتوليدي—دون أن تُغفل الهدف النهائي: رعاية أكثر أمانًا للمرضى الحقيقيين.

الاستشهاد: Wang, Q., Li, J., Li, X. et al. Multi-metric comparative evaluation of DeepSeek and ChatGPT in USMLE versus CNMLE for medical education. Sci Rep 16, 13880 (2026). https://doi.org/10.1038/s41598-026-40043-2

الكلمات المفتاحية: الذكاء الاصطناعي في التعليم الطبي, نماذج اللغة الكبيرة, أداء USMLE, امتحان الترخيص الطبي الصيني, إطار التحقق من الحقائق