Clear Sky Science · ar
MediQAl: مجموعة أسئلة فرنسية للإجابة الطبية لتقييم المعرفة والتفكير
لماذا يهم اختبار الذكاء الاصطناعي الطبي بالفرنسية
يتجه معظم الناس الآن إلى أدوات على الإنترنت، وأحيانًا مدعومة بالذكاء الاصطناعي، للحصول على معلومات صحية. ومع ذلك، فإن الغالبية العظمى من هذه الأنظمة تُدرّب وتُختبر بالإنجليزية، رغم أن ملايين المرضى والأطباء يعملون بلغات أخرى. تعرض هذه المقالة MediQAl، مجموعة كبيرة من أسئلة الامتحانات الطبية الفرنسية المصممة لكشف مدى فهم أنظمة الذكاء الاصطناعي الحالية للطب وقدرتها على الاستدلال باللغة الفرنسية، وأين لا تزال تفتقر إلى الكفاءة.
مجموعة جديدة من أسئلة الامتحانات الطبية الحقيقية
جوهر MediQAl هو كنز مكوّن من 32,603 سؤالًا مأخوذًا من امتحانات الترخيص الطبي الوطنية في فرنسا. هذه الاختبارات عالية المخاطر، التي يكتبها متخصصون أكاديميون ومستشفَيون، مصممة لتعكس الممارسة السريرية الحقيقية: فهي تمزج الحقائق المأخوذة من الكتب مع سيناريوهات العالم الواقعي المعقدة حيث تتطور الأعراض بمرور الوقت وقد تكون الدلائل المهمة مضمنة فقط. يضيف أسلوب الامتحان الفرنسي صعوبة إضافية للآلات: الأسئلة طويلة، والجمل معقدة، والفخاخ كثيرًا ما تعتمد على النفي أو الاستثناءات مثل «كل ما يلي صحيح، باستثناء…». من خلال الحفاظ على هذا البناء الأصيل، يقدم MediQAl ملعبًا صارمًا وواقعيًا لاختبار الذكاء الاصطناعي الطبي أبعد من أمثلة صفية مبسطة.

ثلاث طرق لاختبار طبيب الذكاء الاصطناعي
تم تنظيم MediQAl في ثلاث فئات مهام تعكس كيفية اختبار الأطباء. الفئة الأولى والأكبر هي أسئلة الاختيار من متعدد بإجابة واحدة، حيث يكون خيار واحد فقط من بين خمسة صحيحًا. المجموعة الثانية تسمح بعدة خيارات صحيحة، مما يجبر الأنظمة على وزن مجموعات من النتائج كما قد يفعل الطبيب عند النظر في مضاعفات محتملة متعددة في آن واحد. المجموعة الثالثة تتكون من أسئلة قصيرة مفتوحة النهايات حيث يجب على النظام توليد إجابته الموجزة بدلاً من الاختيار من قائمة. كل سؤال مُوسوم سواء كاختبار للفهم المباشر (استدعاء أو تطبيق حقائق معروفة) أو للاستدلال الحقيقي (تفكير متعدد المراحل، دمج دلائل، أو التعامل مع عدم اليقين). يتيح هذا البناء للباحثين فحص ليس فقط ما «يعرفه» الذكاء الاصطناعي، بل كيف يفكر في معالجة حالة طبية.
كيفية بناء المجموعة والتحقق منها
لتجميع MediQAl، قام المؤلفون بجلب أسئلة من مواقع تدريبية ومواد رسمية حيث يشارك الطلاب والمعلمون أسئلة الامتحانات السابقة. تم استخراج أسئلة الاختيار من متعدد تلقائيًا، بينما تطلّبت الأسئلة المفتوحة الأقل تنظيمًا مزيجًا من مطابقة الأنماط والتحرير اليدوي من صفحات الويب وملفات PDF. أزال الفريق الأسئلة ذات الإجابات المفقودة أو التي تحتوي على صور أو جداول، والإجابات النصية الحرة الطويلة جدًا، والنسخ المتقاربة التي اكتشفت باستخدام مقاييس التشابه على كل من الأسئلة والحلول. ولتركيز أصعب المواد في جزء الاختبار، طُلب من ثلاثة نماذج ذكاء اصطناعي أصغر الإجابة على الأسئلة: أي عنصر أجاب عليه نموذج واحد على الأقل اعتُبر سهلًا جدًا للاختبار ونُقل إلى التدريب أو التحقق. ثم راجع خبير طبي عينة طبقية مكوّنة من 150 سؤالًا، مؤكّدًا أن الغالبية العظمى كانت سليمة طبيًا ومُؤطّرة بشكل مناسب، مع شريحة صغيرة وُسِمت على أنها قديمة أو غامضة.
اختبار نماذج الذكاء الاصطناعي الرائدة
مع وجود MediQAl، قيّمَت الدراسة 14 نموذجًا للغة الكبيرة، تتراوح بين أنظمة تجارية معروفة ونماذج مفتوحة المصدر مُولّفة للطب أو للتفكير خطوة بخطوة. خضعت جميعها للاختبار في وضع «الصفر طلقة» (zero-shot)، أي أنها طُلِبت للإجابة دون تدريب مخصص للمهمة. تُظهر النتائج أنماطًا واضحة. أولًا، الأداء أعلى باستمرار في أسئلة الاستدعاء البسيطة مقارنةً بتلك التي تتطلب استدلالًا مكثفًا، عبر كل نموذج ونوع مهمة. في المتوسط، تنخفض الدقة في أسئلة الاستدلال بعدة نقاط مقارنةً بأسئلة الفهم، والفجوة أكبر بشكل خاص في الإجابات المفتوحة. ثانيًا، تميل النماذج المدربة صراحةً على الاستدلال إلى التفوق على نظيراتها «العادية»، لا سيما في أصعب الأسئلة، لكنها لا تزال بعيدة عن الموثوقية المتوقعة من الممارسين السريريين. ثالثًا، يختلف النجاح اختلافًا واسعًا حسب التخصص: تُعالج موضوعات مثل علم الوراثة والأمراض الجلدية والجراثيمية بشكل جيد نسبيًا، بينما تظل مجالات مثل الطب النفسي، علم الوبائيات، طب العمل، والحالات المفتوحة المعقدة تحديًا.

ما يعنيه ذلك للمرضى والممارسين
يملأ MediQAl فجوة كبيرة بتقديم معيار تقييم واسع ومنقح بعناية يختبر الذكاء الاصطناعي الطبي بالفرنسية وعبر 41 تخصصًا، مستخدمًا أسئلة مصممة للأطباء المستقبليين بدلاً من الآلات. تُظهر النتائج أنه بينما يمكن للأنظمة المتقدمة غالبًا استدعاء الحقائق بشكل صحيح وأحيانًا مطابقة إجابات على نمط الامتحانات، إلا أنها لا تزال تواجه صعوبات عند طلب الاستدلال عبر قصص سريرية دقيقة، خاصة خارج الإنجليزية وفي مجالات معينة. بالنسبة للمرضى ومقدمي الرعاية الصحية، الرسالة واضحة: أدوات الذكاء الاصطناعي الحالية يمكن أن تكون مساعدات مفيدة لكنها ليست جاهزة لاستبدال الحكم البشري، وحدودها تعتمد بشدة على اللغة والتخصص. بالنسبة للباحثين والمنظمين، يوفر MediQAl منصة اختبار عامة وقابلة لإعادة الاستخدام لتتبع التقدم نحو ذكاء اصطناعي طبي آمن وعادل يعمل بشكل جيد بالفرنسية كما يعمل بالإنجليزية.
الاستشهاد: Bazoge, A. MediQAl: A French Medical Question Answering Dataset for Knowledge and Reasoning Evaluation. Sci Data 13, 356 (2026). https://doi.org/10.1038/s41597-026-06680-y
الكلمات المفتاحية: الإجابة على الأسئلة الطبية, الذكاء الاصطناعي باللغة الفرنسية, التفكير السريري, نماذج اللغة الكبيرة, امتحانات طبية