Clear Sky Science · ar
أداء DeepSeek في توليد أسئلة الاختبارات أثناء التدريب في تعليم زملاء الأشعة
لماذا تهم أسئلة الاختبار الأكثر ذكاءً
يخضع أطباء التصوير الطبي المتدربون لاختبارات متكررة لفحص ما يعرفونه ومدى قدرتهم على رعاية المرضى. يتطلب كتابة هذه الأسئلة وقتًا خبيرًا كبيرًا، وتتساءل المدارس ما إذا كانت أدوات الذكاء الاصطناعي قادرة على المساعدة. تفحص هذه الدراسة ما إذا كان نموذج لغوي كبير يُدعى DeepSeek يمكنه تقاسم جزء من هذه المهمة من خلال كتابة أسئلة متعددة الاختيارات لزملاء الأشعة، وأين لا تزال الحاجة إلى الخبراء البشريين واضحة.

ما الذي سعى الباحثون لمعرفةه
ركز الفريق في الصين على جزء أساسي من تدريب الأشعة: اختبارات خلال التدريب تتتبّع تقدم المقيمين كل عام. قارنوا مجموعتين متطابقتين من أسئلة الامتحان. كتبت مجموعة واحدة من قبل أطباء أشعة ذوي خبرة وفقًا لمعايير التدريب الوطنية. أما المجموعة الأخرى فتم توليدها بالصينية بواسطة نموذج DeepSeek باستخدام مطالبات مُصممة بعناية تحدد الموضوع، مستوى المتدرب، ونوع السؤال. كان على جميع الأسئلة أن تتبع نفس القواعد وتم فحصها من قبل أخصائي أشعة كبير للتأكد من دقتها وعدالتها قبل استخدامها.
كيف جرت تجربة الامتحان
من هذه بنوك الأسئلة، اختار الباحثون عشوائيًا 14 سؤالًا من الذكاء الاصطناعي و14 سؤالًا من الخبراء وخلطوها في اختبار إلكتروني مكوّن من 28 بندًا. خضع أربعون مقيمًا في الأشعة في سنتهم الثانية أو الثالثة لهذا الامتحان المغلق. لكل بند، اختاروا إجابة، خمنوا ما إذا كان مصدر السؤال DeepSeek أو خبيرًا بشريًا، وقيّمواه من حيث الصعوبة، والاتساق مع المنهج، والجودة العامة، وواقعية القصة السريرية. سمح هذا التصميم للفريق بمقارنة ليس فقط الدرجات بل أيضًا كيفية شعور المتعلمين تجاه الأسئلة.

أين يضاهي الذكاء الاصطناعي كتاب البشر
عبر الاختبار بأكمله، حصل المقيمون على نحو نفس نسبة الإجابات الصحيحة سواء كانت الأسئلة مكتوبة بواسطة DeepSeek أو بواسطة خبراء، ولم يكونوا جيدين جدًا في تمييز مصدر كل بند. بالنسبة لنوع الأسئلة الأبسط، الموجهة لمعرفة الحقائق والقواعد الواضحة، آدت بنود DeepSeek أداءً مشابهًا لتلك المكتوبة بشر. أشارت المقاييس الموضوعية المستخدمة في الاختبار، مثل مدى قدرة السؤال على تمييز الطلاب الأقوى عن الأضعف، أيضًا إلى أن هذه البنود المعرفية الأساسية من الذكاء الاصطناعي كانت متينة عمومًا. وهذا يعني أن الذكاء الاصطناعي يمكن أن يساعد في بناء بنوك كبيرة من الأسئلة المباشرة التي تعزّز المفاهيم الجوهرية، مما يخفف عبء العمل عن المعلمين.
أين لا تزال الحِكمة البشرية تتفوّق
تغيرت الصورة عندما تضمنت الأسئلة قصص مرضى أغنى وقرارات أصعب. بالنسبة للأسئلة متوسطة التعقيد التي تحتوي على مشاهد سريرية موجزة، أجاب المقيمون عن أسئلة الذكاء الاصطناعي والخبراء بمعدلات صحيحة مماثلة، لكنهم قيّموا النسخ التي كتبها الخبراء بأنها أكثر واقعية وبدرجة ما أصعب، خاصة بين المقيمين الأكثر خبرة الذين يملكون خبرة عالمية أكبر. بالنسبة للأسئلة الأكثر تعقيدًا المبنية حول سلاسل حالات متعددة وخيارات تقديرية، كانت درجات المقيمين أعلى بوضوح على البنود المكتوبة من قبل الخبراء مقارنة بنُسخ DeepSeek. بدا أن المتدربين، وخصوصًا في السنوات الأولى، أكثر عرضة لأن يضللهم أو يربكهم السياق السريري الأضعف والأقل أصالة الذي أنشأه الذكاء الاصطناعي.
كيف يمكن للبشر والذكاء الاصطناعي أن يعملوا معًا
يقترح المؤلفون اتباع نهج طبقي. تعد أدوات مثل DeepSeek مناسبة لصياغة أعداد كبيرة من الأسئلة الأساسية المهيكلة جيدًا التي تغطي الحقائق والتعريفات القياسية. بينما يجب أن يبقى الخبراء البشر مسؤولين عن الأسئلة التي تختبر كيف يفكر الأطباء في ظل عدم اليقين، ويوازنون الخيارات، ويطبّقون القيم في سياقات سريرية حقيقية. يمكن للذكاء الاصطناعي أيضًا مساعدة المراجعين في رصد الأسئلة الأضعف، في حين يوفّر الخبراء الفهم الدقيق الذي لا يأتي إلا من رعاية المرضى. مع حدود واضحة وإشراف دقيق، قد يجعل الجمع بين الذكاء الاصطناعي والحكم الخبير بناء الامتحانات الطبية أكثر كفاءة وأفضل في قياس ما يهم بالفعل.
الاستشهاد: Qian, W., Li, K., Cao, F. et al. Performance of DeepSeek in the generation of in-training examination questions in radiology resident education. npj Digit. Med. 9, 384 (2026). https://doi.org/10.1038/s41746-026-02568-8
الكلمات المفتاحية: تعليم الأشعة, أسئلة الامتحانات, الذكاء الاصطناعي, نماذج اللغة الكبيرة, التدريب الطبي