Clear Sky Science · ar

تقييم ثلاثة روبوتات دردشة بالذكاء الاصطناعي لإنشاء أسئلة اختيار من متعدد في أمراض الدم لطلاب الطب

· العودة إلى الفهرس

أسئلة اختبار أكثر ذكاءً لأطباء الغد

قد لا تبدو اختبارات الاختيار من متعدد مثيرة، لكنها تشكل بهدوء مهارات الأطباء المستقبليين. يمكن لكل سؤال في الامتحان أن يوجّه طريقة تفكير الطلاب بشأن المرضى الحقيقيين. تطرح هذه الدراسة سؤالاً مهماً في الوقت المناسب: هل يمكن لروبوتات الدردشة الحديثة المدعومة بالذكاء الاصطناعي أن تساعد المعلمين الطبيين المشغولين على كتابة أسئلة امتحانية جيدة في أمراض الدم بسرعة أكبر، دون التضحية بالجودة أو السلامة؟

كيف ساعد الذكاء الاصطناعي في بناء أسئلة الامتحان

ركز الباحثون على ثلاثة من روبوتات الدردشة الشائعة المصممة لتوليد النص. طلبوا من كل نظام كتابة 50 سؤال اختيار من متعدد في أمراض الدم، وهو المجال الذي يدرس اضطرابات الدم مثل فقر الدم واللوكيميا. كان يجب أن تغطي الأسئلة خمسة مواضيع شائعة تظهر في الامتحانات الطبية والعيادات الحقيقية: بانسيتوبينيا (انخفاض جميع مكونات الدم)، فقر الدم، قلة الصفيحات (انخفاض الصفائح الدموية)، ومجموعتين من سرطانات الدم تُسمى المتلازمات النقوية وفرط اللمفاويات التكاثرية. في المجمل، أنشأت روبوتات الدردشة 150 سؤالاً في أقل من نصف دقيقة لكل نظام—وهو توفير هائل في الوقت مقارنة بكتابتها يدوياً.

Figure 1
الشكل 1.

وضع الأسئلة المكتوبة بالذكاء الاصطناعي تحت المجهر

السرعة وحدها لا معنى لها إذا كانت الأسئلة خاطئة أو مربكة أو غير عادلة. للتحقق من الجودة، قيّم ثلاثة مدرسين ذوي خبرة في أمراض الدم—لم يعرفوا أي روبوت دردشة كتب أي سؤال—كل بند باستخدام قائمة تحقق مفصلة. قيّموا الدقة العلمية، والأهمية السريرية، ووضوح الصياغة، وواقعية الخيارات الخاطئة، والجودة العامة على مقياس من خمس نقاط. كما حكموا على ما إذا كان مستوى صعوبة كل سؤال مناسباً لطلاب الطب وما إذا كان يمكنه تمييز الطلاب الأقوياء عن الأضعف. اعتُبرت الأسئلة التي حصلت على 15 نقطة على الأقل من أصل 25 مقبولة للاستخدام، بينما كانت الأخرى بحاجة إلى تعديل أو رفض.

أي روبوت دردشة كان الأفضل؟

أنتجت الأنظمة الثلاثة في الغالب أسئلة متينة، لكن أحد النماذج تميز. عبر تقييمات الخبراء، حصل هذا الروبوت على أعلى الدرجات في الدقة، والأهمية السريرية، والخيارات الخاطئة المقبولة. جميع أسئلته الخمسون وصلت إلى عتبة القبول، ولم تحتج أي منها إلى تعديل. لا تزال النموذجان الآخران يظهران أداءً جيداً: أكثر من تسعة من كل عشرة من أسئلتهما كانت كافية لكن احتاجت إلى تعديلات طفيفة، غالباً لأن أحد الخيارات الخاطئة كان واضحاً جداً أنه خاطئ أو لأن تفاصيل معينة يمكن توضيحها. بشكل عام، اتفق الخبراء على أن الأدوات الثلاثة يمكنها بسرعة توليد مواد امتحانية قريبة جداً من الجاهزية للاستخدام في الفصول.

Figure 2
الشكل 2.

مهارات التفكير، لا الحفظ فقط

سأل الفريق أيضاً عن نوع التفكير الذي تطلبته هذه الأسئلة المكتوبة بالذكاء الاصطناعي من الطلاب. باستخدام تصنيف بلوم—وهو إطار يستخدمه المربون لتصنيف المهارات العقلية—قسّموا الأسئلة إلى مسائل معرفة وفهم بسيطة مقابل مهارات أعلى رتبة مثل تطبيق الحقائق، وتحليل الحالات، وتقييم الخيارات. على نحو مفاجئ، أنتجت روبوتات الدردشة في الغالب أسئلة أعلى رتبة. بالنسبة لأحد النماذج، تطلب أكثر من 90% من البنود من الطلاب أن يستنتجوا في سيناريوهات سريرية بدلاً من مجرد استدعاء معلومات. كانت أسئلة الاستذكار الأساسية نادرة نسبياً عبر الأنظمة الثلاثة. يشير هذا النمط إلى أن نماذج اللغة الكبيرة، المدربة على كميات هائلة من النصوص المترابطة، تميل بطبيعتها إلى السيناريوهات الغنية بالسياق وحل المشكلات بدلاً من نداءات الحفظ البسيطة على غرار البطاقات التعليمية.

الواعد والحدود والحاجة إلى شراكة بشرية

على الرغم من هذه النقاط القوية، كشفت الدراسة ثغرات مهمة. لم يقترح أي من روبوتات الدردشة بشكل عفوي أسئلة معتمدة على الصور، وهي ضرورية في أمراض الدم حيث يتعين على الأطباء تفسير شرائح المجهر والرسوم البيانية المعملية. عند طلب عناصر معتمدة على الصور بشكل مباشر، اعترف نظامان بعدم مقدرتهما على توفيرها، وأنتج واحد محاولة منخفضة الجودة. كذلك اعتمدت الدراسة على رأي الخبراء بدلاً من بيانات امتحانية فعلية للطلاب، لذا لا يمكنها إثبات تماماً مدى أداء هذه الأسئلة في الاختبارات الحية. يؤكد المؤلفون أن المعلمين لا يزالون بحاجة إلى التحقق من الحقائق، وصقل الصياغة، وضمان تغطية المفاهيم الأساسية بشكل كافٍ.

ماذا يعني هذا لتدريب الأطباء في المستقبل

للقارئ العادي، الخلاصة أن الذكاء الاصطناعي لا يحل محل المعلمين الطبيين، لكنه يصبح مساعداً قوياً. في هذه الدراسة، ولّدت روبوتات الدردشة بسرعة أسئلة دقيقة إلى حد كبير وواقعية سريرياً تساعد الطلاب على ممارسة اتخاذ القرار في اضطرابات الدم. أنتج نموذج واحد على وجه الخصوص أسئلة ذات جودة عالية لدرجة أن الخبراء سيستخدمونها مع تغييرات طفيفة أو دون أي تغيير. ومع ذلك، أغفلت الآلات فحوصات المعرفة الأبسط ولم تستطع التعامل مع المواد البصرية بمفردها. يخلص المؤلفون إلى أن النهج الأفضل هو شراكة: يقوم الذكاء الاصطناعي بالعمل الشاق المتمثل في صياغة أسئلة متنوعة، بينما يوجّه الخبراء البشريون المطالب، ويملأون الفجوات الأساسية، ويتحققون من المحتوى، ويتابعون التطورات في الإرشادات الطبية.

الاستشهاد: Boufrikha, W., Sallem, A., Laabidi, B. et al. Evaluation of three artificial intelligence chatbots for generating clinical hematology multiple choice questions for medical students. Sci Rep 16, 5802 (2026). https://doi.org/10.1038/s41598-026-36839-x

الكلمات المفتاحية: التعليم الطبي, الذكاء الاصطناعي, أمراض الدم, أسئلة اختيار من متعدد, روبوتات الدردشة