Clear Sky Science · ar

الاختبار المنهجي يُظهر أن نماذج اللغة الكبيرة لم تصل بعد إلى دقة التشخيص لأدوات دعم القرار التقليدية للأمراض النادرة

· العودة إلى الفهرس

لماذا هذا مهم للمرضى والأطباء

عندما يعاني شخص من مرض نادر، قد يستغرق الوصول إلى التشخيص الصحيح سنوات من عدم اليقين، والفحوصات المتكررة، وزيارات العديد من الاختصاصيين. في الوقت نفسه، تُشيد أنظمة الذكاء الاصطناعي القوية الجديدة المسماة نماذج اللغة الكبيرة كقدرات قد تُحدث ثورة في الطب. تطرح هذه الدراسة سؤالاً بسيطاً لكنه حاسم: هل هذه الروبوتات الحوارية الجديدة أفضل فعلاً في اكتشاف الأمراض الوراثية النادرة من الأدوات المتخصصة التي يستخدمها الأطباء بالفعل، أم أنها لا تزال بحاجة إلى مزيد من التطور؟

الأمراض النادرة والطريق الطويل إلى الإجابات

على الرغم من أن كل مرض نادر يؤثر على عدد قليل نسبياً من الأشخاص، فإن هناك أكثر من 10,000 حالة من هذا النوع، ومعاً تؤثر على ما يصل إلى واحد من كل اثني عشر شخصاً. يتحمل العديد من هؤلاء المرضى «رحلة تشخيصية» تدوم بين خمس إلى سبع سنوات قبل أن يستطيع أحد أن يسمّي المشكلة. بالنسبة للحالات الوراثية، يُعدّ خطوة محورية مطابقة مجموعة أعراض الشخص ونتائج الفحوصات والنتائج التصويرية مع الأنماط المعروفة للأمراض المحددة. تساعد برامج الحاسوب الراسخة بالفعل في ذلك من خلال استخدام معاجم قياسية للميزات الطبية للبحث عبر آلاف الحالات المحتملة.

وضع الروبوتات الحوارية والأدوات التقليدية على المحك

جمع الباحثون مجموعة كبيرة مكوّنة من أكثر من خمسة آلاف حالة حقيقية لكن مجهولة الهوية لمرضى لديهم أمراض نادرة وراثية أو كروموسومية مؤكدة. وقد حوّل كل ملف بعناية إلى صيغة منظمة تُشفّر عمر الشخص وجنسه وأعراضه ونتائج الفحوص باستخدام قاموس طبي مشترك. من هذه السجلات المنظمة، ولّد الفريق تلقائياً قصص حالات قصيرة يمكن تقديمها لسبعة نماذج لغوية مختلفة، بما في ذلك أنظمة عامة وأخرى درّبت خصيصاً على نصوص طبية. بالتوازي، أدخلوا نفس البيانات المنظمة إلى برنامج Exomiser، وهو برنامج دعم قرار مُستخدم على نطاق واسع للأمراض النادرة، لكن من دون تزويده بأي معلومات تسلسل جيني ليكون المقارنة عادلة.

Figure 1
الشكل 1.

كيفية تقييم من وجَّه إلى التشخيص الصحيح

مقارنة الإجابات من الروبوتات الحوارية والبرمجيات التقليدية أصعب مما يبدو، لأن نماذج اللغة ترد بنصوص حرة قد تستخدم أسماء أمراض مختلفة أو مستويات تفصيل متفاوتة. لتجنب الاعتماد على رأي بشري في ما إذا كانت الإجابة «قريبة بما يكفي»، قام الفريق بربط كل تشخيص مقترح بكاتالوج موحّد للأمراض. اعتُبر اقتراح النموذج صحيحاً إذا طابق المرض بالاسم الدقيق، أو باسم مكافئ، أو نسخة أكثر عمومية قليلاً تضمّ بوضوح الحالة الصحيحة. لكل حالة، قاسوا بعد ذلك مكان ظهور الإجابة الصحيحة في قائمة الترتيب لدى النموذج — المركز الأول، ضمن الثلاثة الأوائل، أو ضمن العشرة الأوائل.

ما أظهرته المقارنة وجهاً لوجه

عبر جميع الحالات الخمسة آلاف ومائتين وثلاثة عشر، تفوّق Exomiser بوضوح على كل نموذج لغوي مُختبر. باستخدام معلومات الأعراض فقط، وضع Exomiser التشخيص الصحيح في المركز الأول في نحو حالة واحدة من بين كل ثلاث حالات، وفي المرتبة ضمن العشرة الأوائل بأكثر من نصف الحالات بكثير. أفضل نموذج لغوي، وهو نظام يركز على الاستدلال، وصل إلى المركز الأول في أقل بقليل من ربع الحالات وإلى العشرة الأوائل في أكثر بقليل من ثلث الحالات. أداء النماذج الأخرى الموجهة طبياً كان أسوأ بشكل ملحوظ، ونموذج طبي كبير واحد نادراً ما اقترح المرض الصحيح. بقيت هذه الأنماط ثابتة حتى عندما نظر الباحثون بشكل منفصل إلى اضطرابات القلب أو الدماغ أو الجهاز المناعي، وعندما قسموا الحالات بحسب مدى تفصيل أوصاف الأعراض.

Figure 2
الشكل 2.

ماذا يعني هذا لمستقبل الذكاء الاصطناعي في التشخيص

تُظهر هذه الدراسة أنه على الرغم من قدرات نماذج اللغة الكبيرة المذهلة في التعامل مع اللغة، فهي ليست بعد موثوقة مثل الأدوات المتخصصة في تشخيص الأمراض الوراثية النادرة اعتماداً على أوصاف الأعراض وحدها. يمكن أن تظل مفيدة كمساعدات — على سبيل المثال، لمساعدة الأطباء على التفكير في الاحتمالات أو شرح الحالات بلغة مبسطة — لكنها لا ينبغي أن تحل محل البرمجيات الراسخة عندما تكون حياة المرضى وإيجاد إجابات طال انتظارها على المحك. يجادل المؤلفون بأن الطريق الأكثر وعداً هو دمج نماذج اللغة ضمن خطوط تشخيص مُصمَّمة بعناية، حيث تعمل جنباً إلى جنب، بدلاً من أن تحل محل، أدوات المعلوماتية الحيوية الموثوقة.

الاستشهاد: Reese, J.T., Chimirri, L., Bridges, Y. et al. Systematic benchmarking demonstrates large language models have not reached the diagnostic accuracy of traditional rare-disease decision support tools. Eur J Hum Genet 34, 498–504 (2026). https://doi.org/10.1038/s41431-026-02054-5

الكلمات المفتاحية: الأمراض النادرة, التشخيص الطبي, نماذج اللغة الكبيرة, دعم القرار السريري, الاضطرابات الوراثية