Clear Sky Science · ar

إمكانات نماذج اللغة الكبيرة في تقديم دعم معلوماتي سريري سريع: أدلة من اختبار المعرفة عن الفشل الكلوي الحاد

· العودة إلى الفهرس

لماذا يهم هذا المرضى والأطباء

عندما يواجه الأطباء مريضاً مريضاً، خصوصاً شخصاً قد تكون كليتاَه في فشل، عليهم اتخاذ قرارات سريعة ومستنيرة. تطرح هذه الدراسة سؤالاً لافتاً: هل تستطيع أدوات الذكاء الاصطناعي الحديثة، المعروفة بنماذج اللغة الكبيرة، استرجاع وتطبيق الحقائق الطبية حول الفشل الكلوي الحاد بسرعة وبدقة تفوق الأطباء الحقيقيين—وإذا كان الأمر كذلك، ماذا يعني ذلك للرعاية المستقبلية؟

Figure 1
Figure 1.

مشكلة كلوية شائعة لكنها خطيرة

الفشل الكلوي الحاد هو فقدان مفاجئ لوظيفة الكلية يظهر كثيراً في أقسام المستشفيات والطوارئ. قد يصيب نحو واحد من كل عشرة أشخاص يدخلون المستشفى، وحتى نصف المرضى في وحدات العناية المركزة. إذا لم يُكتشف أو عُولج متأخراً، قد يتعرض المرضى لأضرار دائمة ويتطور لديهم مرض كلوي مزمن، وهو حالة طويلة الأمد تؤثر على أكثر من واحد من كل عشرة أشخاص عالمياً وترتبط بزيادة خطر الوفاة وأمراض القلب وتراجع جودة الحياة. لذلك يُتوقع من الأطباء أن يعرفوا كيفية اكتشاف الفشل الكلوي الحاد مبكراً وإدارته وفقاً للإرشادات المعتمدة.

تصميم مواجهة بين الإنسان والآلة

لاختبار مدى قدرة الذكاء الاصطناعي على التعامل مع هذا الموضوع، نظم الباحثون تحدياً «الذكاء الاصطناعي ضد الإنسان» في مؤتمر كبير للطب الباطني في ألمانيا عام 2025. في كشك خدمة ذاتية، أجاب 123 متطوعاً—من طلاب طب إلى رؤساء أقسام—عن نفس الاختبار الإلكتروني. استند الاختبار إلى قصتين طبيتين قصيرتين عن مشكلات كلوية و15 سؤال اختيار من متعدد مبني على الإرشادات، كلها بالألمانية. في الوقت نفسه، طُعم 13 نموذج لغة متاحاً للعامة من عدة مزوّدين معروفين بنفس الحالات والأسئلة دفعة واحدة، باستخدام إعداداتهم الافتراضية. سمح هذا التصميم للفريق بمقارنة مباشرة لدقة وسرعة الأداء بين الأطباء والآلات ضمن شريحة مركزة من المعرفة الكلوية.

كيف أدَّى البشر والآلات

كانت النتائج صارخة. في المتوسط، أجاب المشاركون البشر بأقل من نصف الأسئلة بشكل صحيح، بمعدل حوالى 7 من 15 نقطة. لم تختلف الدرجات كثيراً بين الطلاب والمقيمين والأطباء الكبار، رغم أن الطلاب أظهروا تبايناً أكبر في النتائج. بالمقابل، حقّقت نماذج اللغة متوسطاً قدره 13.5 من 15 نقطة، أي 90% صحيحة. بلغ أداء عدة نماذج الدرجة الكاملة، بينما كان أضعفها ما يزال يعادل أو يتفوق على معظم البشر. حوالي مشارك واحد من كل ستة فقط طابق أداء أضعف النماذج، وقليل جداً اقترب من أقوى الأنظمة. كان فرق السرعة لافتاً أيضاً: أنهى نموذج واحد الاختبار بأكمله في نحو 30 ثانية، بينما احتاج البشر أكثر من سبع دقائق في المتوسط.

Figure 2
Figure 2.

الوعد والمخاطر للأجوبة السريعة كبرق

تشير هذه النتائج إلى أن نماذج اللغة الكبيرة يمكن أن تكون أدوات قوية ومنخفضة التكلفة للوصول السريع إلى الحقائق الطبية، خصوصاً في بيئات يكون فيها الوقت والطاقم محدودين، مثل غرف الطوارئ، نوبات الليل أو العيادات الريفية. كما تلمّح الدراسة إلى أن طريقة صياغة السؤال تهم: ففي تجربة متابعة صغيرة، أدّى نموذج واحد أداءً أفضل عندما طُلب منه الرد كما لو كان طبيباً متمرساً في موقف حياة أو موت. ومع ذلك، يؤكد المؤلفون أن الاختبار قاسَ استدعاء الحقائق المبنية على الإرشادات في اختبار مراقب فقط، وليس التفكير السريري الكامل أو الحكم على السرير أو نتائج المرضى في العالم الحقيقي.

لماذا يظل الحكم البشري أولاً

يؤكد الباحثون أن نماذج اللغة الحالية لديها أيضاً نقاط ضعف خطيرة. يمكنها «الهلوسة»، أي إنتاج عبارات خاطئة أو مضللة بثقة، وهو خطر قد يزداد في الحالات النادرة أو المعقدة حيث لا توفر الإرشادات إجابات واضحة. لا تستطيع هذه النماذج فحص المريض، أو التقاط دلائل جسدية دقيقة، أو نقل التعاطف والثقة—وهي كلها محورية للرعاية الجيدة. كما تلوح قضايا أخلاقية وقانونية كبيرة: النماذج تتغير مع الوقت، وقد تتعامل مع البيانات بطرق غامضة ولا يمكنها تحمل مسؤولية القرارات الطبية. لذلك يرى المؤلفون أنه يجب استخدام هذه الأنظمة كأدوات داعمة لاسترجاع المعرفة ومساعدة القرار فقط، مع ضوابط واضحة، واختبارات منتظمة وقواعد قوية لحماية الخصوصية.

الرسالة الأساسية لغير المتخصصين

باختصار، تظهر هذه الدراسة أن نماذج اللغة الحديثة يمكن أن تتفوق على كثير من الأطباء والطلاب في اختبار كتابي مركز حول الفشل الكلوي الحاد—وتفعل ذلك في جزء يسير من الوقت. هذا يجعلها رفقاء واعدين للبحث السريع عن الحقائق الطبية. لكن بما أنها ما تزال قد ترتكب أخطاء واثقة وتفتقر إلى الفهم البشري، فهي ليست بديلاً عن الممارسين. على المدى المنظور، ستأتي أفضل رعاية من مزيج من أدوات سريعة ومصممة جيداً والحكم الدقيق والمتعاطف للمحترفين المدربين.

الاستشهاد: Russ, P., Bedenbender, S., Einloft, J. et al. Potential of large language models for rapid clinical information support: evidence from acute kidney injury knowledge testing. Sci Rep 16, 11224 (2026). https://doi.org/10.1038/s41598-026-46846-7

الكلمات المفتاحية: الفشل الكلوي الحاد, نماذج اللغة الكبيرة, دعم القرار السريري, الصحة الرقمية, أمراض الكلى