Clear Sky Science · ar

معيار واسع النطاق لتقييم نماذج اللغة الكبيرة في الإجابة على الأسئلة الطبية باللغة الرومانية

· العودة إلى الفهرس

لماذا هذا مهم للصحة والتكنولوجيا

يلجأ الكثير من الناس الآن إلى أدوات عبر الإنترنت والدردشة للحصول على معلومات صحية، لكن معظم هذه الأنظمة تعمل بأفضل شكل باللغة الإنجليزية وتواجه صعوبات مع السجلات الطبية المحلية. تتناول هذه الورقة تلك الفجوة في رومانيا، حيث يكتب الأطباء ملخصات حالات طويلة ومعقدة باللغة الرومانية ويحتاجون إلى مساعدين رقميين موثوقين للإجابة بسرعة على أسئلة حول مرضى السرطان. يقدم المؤلفون MedQARo، موردًا جديدًا يتيح للباحثين اختبار وتحسين نماذج اللغة الكبيرة بجدية حتى تتمكن من فهم الملاحظات السريرية الحقيقية باللغة الرومانية بشكل أفضل.

قاعدة أسئلة جديدة مبنية على مرضى حقيقيين

جوهر الدراسة هو MedQARo، مجموعة كبيرة جدًا تضم 105,880 زوج سؤال–إجابة مرتبطة بـ 1,242 مريضًا بالسرطان. بدلًا من ترجمة بيانات إنجليزية، بدأ الفريق من الصفر مستخدمًا ملخصات حالات أصلية باللغة الرومانية، في الغالب لسرطان الثدي والرئة، بالإضافة إلى عدة أنواع أورام أخرى. أمضى سبعة أخصائيين ومقيمين في الأورام حوالي 3,000 ساعة في قراءة هذه الوثائق وكتابة إجابات لأسئلة طبية مصممة بعناية. بعض الأسئلة نعم/لا، والبعض الآخر يستخرج تفاصيل محددة، وبعضها يتطلب جمع دلائل لاستنتاج المراحل أو جداول العلاج. تمت إزالة هوية جميع بيانات المرضى تمامًا وحصلت على موافقات لجان الأخلاقيات.

Figure 1
الشكل 1.

اختبار الذكاء الاصطناعي على لغة طبية محلية

باستخدام MedQARo، قيّم المؤلفون عدة عائلات من نماذج اللغة الكبيرة، بما في ذلك اثنان مخصصان للرومانية عمومًا، واحد مصمم للتعامل مع نصوص طويلة جدًا، وآخر مدرَّب على مادة طبية بالإنجليزية. قارنوا أيضًا هذه النماذج مع نموذجين تجاريين قويين يمكن الوصول إليهما عبر واجهات برمجة تطبيقات مدفوعة. كان على كل نموذج قراءة السؤال ومقتطف من الملخص السريري ثم توليد الإجابة. لم يقتصر تقييم الباحثين على المطابقات التامة فحسب، بل نظروا أيضًا في عدد المرات التي التقطت فيها النماذج الكلمات المفتاحية ومدى تعاملها مع الصياغات الرومانية المرنة، باستخدام أربعة مقاييس تحكيم مختلفة.

النماذج المضبوطة تتفوق على العمالقة الجاهزين

عُموميًا، قدمت النماذج المستخدمة «كما هي» أداء ضعيفًا على MedQARo، حتى عندما كانت قوية بالإنجليزية أو لديها بعض التعرض للرومانية. كانت قواعد أساسية بسيطة تتنبأ دائمًا بالإجابة الأكثر شيوعًا أحيانًا تقارب أداء هذه الأنظمة التي تعمل بدون تدريب سابق. ومع ذلك، بعد أن قام الباحثون بضبط النماذج على مجموعة البيانات الجديدة، قفز الأداء بشكل كبير. وصل أفضل نظام، وهو نموذج مكيَّف للرومانية يُدعى RoMistral‑7B، إلى درجة F1 تقارب 0.67 على أنواع السرطان والمستشفيات المألوفة، متفوقًا بوضوح على جميع النماذج مفتوحة المصدر والتجارية الأخرى. ومع ذلك، استمر هذا المتصدر في الإجابة بطريقة خاطئة على أكثر من ثلث الأسئلة، مما يبيّن مدى صعوبة المعيار.

Figure 2
الشكل 2.

اختبار التحمل للتعميم عبر العيادات والسرطانات

لمعرفة ما إذا كانت هذه الأنظمة قادرة على التعامل مع حالات جديدة، بنى الفريق مجموعة اختبار أصعب من مركز طبي مختلف ومن أنواع سرطانية لم تظهر أثناء التدريب. في هذا السيناريو عبر المجالات، انخفض أداء كل نموذج، غالبًا بشكل حاد، حيث أجاب أفضل نموذج مضبوَط بشكل صحيح أقل من نصف الوقت بكثير. لم تنتقل النماذج المدربة على نصوص طبية إنجليزية تلقائيًا إلى الملاحظات الرومانية بشكل جيد، ولم تُجْدِ إضافة جزء أطول بكثير من المستند السريري نفعًا كبيرًا أيضًا. في الواقع، كانت التركيز على الجزء الأول من الملخص يعمل في كثير من الأحيان أفضل من تغذية السجل الطويل بأكمله، مما يشير إلى أن مزيدًا من السياق قد يربك بدل أن يوضح.

ماذا يعني هذا للذكاء الاصطناعي السريري في المستقبل

للقارئ العام، الخلاصة هي أن بناء ذكاء اصطناعي طبي آمن ومفيد بلغات مثل الرومانية يتطلب أكثر من مجرد إدخال بيانات محلية في روبوت دردشة كبير متمركز حول الإنجليزية. تكشف معايير خاصة باللغة ومصممة بعناية مثل MedQARo عن الإمكانات والقيود في الأنظمة الحالية على حد سواء. تظهر أن النماذج الصغيرة مفتوحة المصدر، عندما تُضبَط على بيانات محلية عالية الجودة، يمكن أن تتفوق على نماذج عامة أكبر تعمل في السحابة. في الوقت نفسه، تحذر الدرجات المتوسطة، خاصة على المستشفيات والسرطانات الجديدة، من أن أدوات اليوم غير جاهزة لاستبدال الحكم البشري. بدلًا من ذلك، يقدم MedQARo أساسًا قويًا للجيل القادم من المساعدين السريريين الذين يمكنهم مساعدة أطباء رومانيا في التنقل عبر سجلات السرطان المعقدة مع إبقاء سلامة وخصوصية المرضى في المقام الأول.

الاستشهاد: Rogoz, AC., Ionescu, R.T., Anghel, AV. et al. A large-scale benchmark for evaluating large language models on medical question answering in Romanian. npj Digit. Med. 9, 268 (2026). https://doi.org/10.1038/s41746-026-02465-0

الكلمات المفتاحية: الإجابة على الأسئلة الطبية, الذكاء الاصطناعي باللغة الرومانية, سجلات سريرية لمرضى السرطان, نماذج اللغة الكبيرة, معيار MedQARo