Clear Sky Science · ar
تقييم نماذج اللغة الكبيرة للاستدلال التشخيصي من السرديات السريرية غير المهيكلة في الصرع
لماذا هذا مهم للمرضى والأطباء
عندما يصاب شخص بنوبة، فإن مظهرها وطريقة شعوره بها قد تمنح دلائل حيوية عما يحدث داخل الدماغ. يستخدم الأطباء هذه الأوصاف لتحديد موضع بدء النوبة في الدماغ وما العلاجات التي قد تساعد، بما في ذلك الجراحة. تسأل هذه الدراسة ما إذا كانت نماذج اللغة الكبيرة، نفس نوع الذكاء الاصطناعي وراء الدردشات الآلية، قادرة بشكل موثوق على تفسير أوصاف النوبات الواقعية ودعم هذا النوع من الاستدلال التشخيصي.

تحويل قصص النوبات إلى مؤشرات دماغية
يركز الباحثون على الصرع، الحالة التي تسببها موجات قصيرة من النشاط الدماغي غير الطبيعي وتؤدي إلى نوبات. في الرعاية اليومية، يستمع الأطباء بدقة للمرضى والشهود، ويسجلون سمات مثل حركات المضغ، الإحساسات الغريبة، أو تحرّك الأطراف بعنف. غالبًا ما تشير هذه التفاصيل إلى مناطق دماغية محددة، مثل الفص الصدغي أو الفص الجبهي. بنى الفريق عمله على مجموعة بيانات عامة كبيرة رُبطت فيها أكثر من 1200 وصفة نوبة بالفعل بسبع مناطق دماغية واسعة استنادًا إلى نتائج جراحية تركت المرضى خالين من النوبات، وهو دليل قوي على إزالة مصدر النوبة الحقيقي.
اختبار العديد من نماذج الذكاء الاصطناعي
تم تقييم ثمانية نماذج لغوية مختلفة، بما في ذلك أنظمة عامة مستخدمة على نطاق واسع ونموذجان مخصصان للنصوص الطبية. تلقى كل نموذج وصفة نوبة وكان عليه أن يخرج احتمالية بدء النوبة في كل واحدة من المناطق الدماغية السبع. فحص الباحثون ليس فقط مدى صحة الاختيار الأول، بل أيضًا مدى ثقة النماذج، ومدى توافق تلك الثقة مع الواقع، ومدى معقولية تفسيراتها المكتوبة. قارنوا النتائج بخط أساس بسيط يختار دائمًا المنطقة الدماغية الأكثر شيوعًا ومع نتيجتين من أخصائيي صرع بشريين قيّما مجموعة فرعية من الحالات.

كيف يشكل صياغة التحفيز سلوك الذكاء الاصطناعي
كان لصياغة المهمة المقدمة للنماذج تأثير كبير. عندما مُنحت التعليمات الأساسية فقط، أدت معظم الأنظمة أداءً يفوق الاحتمال قليلًا. تحسّن الأداء عندما عرضت على النماذج بعض الحالات النموذجية، وطُلب منها التفكير خطوة بخطوة، أو قُدِّمت أمثلة مكتوبة من خبراء للاستدلال السريري لتقليدها. جاءت أقوى المكاسب من التحفيز الذي شجع على استدلال مفصل ومن دمج إجابات مستقلة متعددة للوصول إلى قرار أكثر ثباتًا. تحت هذه التعليمات الأكثر ثراءً، اقتربت أفضل الأنظمة من دقة الأطباء البشريين في هذه المهمة المحددة، بينما أصبحت أيضًا أكثر اتساقًا وأكثر مطابقة في مستوى ثقتها للواقع.
نقاط القوة ونقاط العمى والتحقق البشري
كشف الفحص الدقيق عن ملاحظات مهمة. راجع خبراء سريريون الاستدلال الذي أنتجته أفضل نموذجين. أظهر أحدهما، GPT-4، فهمًا أكثر تماسكًا للأعراض واستخدامًا دقيقًا لمعارف الصرع ومنطقًا متسقًا في كثير من الأحيان. كما كان يميل إلى الاستشهاد بأوراق علمية حقيقية بشكل صحيح. النموذج القوي الآخر، Mixtral-8×7B، أحيانًا وصل إلى الإجابة الصحيحة لأسباب خاطئة، فاتِّه قراءة تفاصيل الأعراض أو اخترع حقائق ومراجع داعمة. أظهرت الدراسة أيضًا أن الأداء اعتمد على مدى طول وصف النوبة، والدور السريري الذي طُلب من النموذج التظاهر به، واللغة المستخدمة. كانت الأوصاف القصيرة جدًا أو الطويلة جدًا الأفضل، ومحاكاة كون النموذج أخصائيًا حسَّنت النتائج، واستخدام تحفيزات بغير الإنجليزية قد يقلل الدقة.
ما يعنيه هذا للرعاية المستقبلية
يستنتج المؤلفون أن نماذج اللغة الكبيرة يمكنها، في بيئة مضبوطة، تحويل قصص النوبات غير المهيكلة إلى تقديرات مفيدة عن مكان بدء النوبات في الدماغ. مع تصميم جيد للتحفيز، قد يقترب أداؤها من أداء الأطباء المتمرسين، على الأقل للمهمة الضيقة المتمثلة في ربط علامات النوبة بمناطق دماغية واسعة. وفي الوقت نفسه، قد تبدو النماذج مقنعة بينما تعتمد على استدلال معيب أو مصادر مفبركة. هذا المزيج من الوعد والمخاطرة يعني أن مثل هذه الأنظمة قد تساعد يومًا ما في فرز الحالات أو دعم التفكير التشخيصي المبكر، لكنها يجب أن تُخضع للتحقق الشامل، وتُراقب عن كثب، وتُستخدم إلى جانب الخبرة البشرية لا كبديل عنها.
الاستشهاد: Dani, M., Prakash, M.J., Rosa, F. et al. Evaluating large language models for diagnostic reasoning from unstructured clinical narratives in epilepsy. Commun Med 6, 303 (2026). https://doi.org/10.1038/s43856-026-01653-z
الكلمات المفتاحية: الصرع, سيمولوجيا النوبة, نماذج اللغة الكبيرة, الاستدلال التشخيصي, تقييم الذكاء الاصطناعي السريري