Clear Sky Science · ar

الأداء الفردي والتعاوني لنماذج اللغة الكبيرة والمتخصصين في الرعاية الصحية في التشخيص والفرز

· العودة إلى الفهرس

لماذا يهم هذا في زيارتك القادمة للطبيب

عندما تكتب أعراضك في روبوت دردشة عبر الإنترنت أو تسأل تطبيقًا ذكياً عما قد يكون خطأ، فأنت تستخدم نفس نوع التكنولوجيا التي يختبرها الأطباء الآن في المستشفيات: نماذج اللغة الكبيرة (LLMs). تطرح هذه الدراسة سؤالًا بسيطًا لكنه حيوي: ما مدى دقة هذه الأدوات فعلاً في تشخيص المرض وتحديد مدى استعجال الحالة مقارنةً بمهنيي الرعاية الصحية الحقيقيين — وماذا يحدث عندما يعمل الاثنان معًا؟

Figure 1
Figure 1.

كيف نظر الباحثون إلى الصورة الكبيرة

لم يختبر المؤلفون روبوت دردشة واحدًا في عيادة واحدة. بدلًا من ذلك، جمعوا الأدلة من 50 دراسة منفصلة أُجريت حول العالم بين 2020 و2025. شملت هذه الدراسات العديد من التخصصات، من أمراض العيون وفحوصات الدماغ إلى رعاية الطوارئ. في كل منها، طُرحت على الأطباء ونموذج أو أكثر من نماذج اللغة نفس أوصاف حالات مرضية حقيقية أو مصممة بعناية. كان على النماذج اقتراح تشخيصات محتملة أو تقرير مدى الحاجة للحصول على رعاية بسرعة، بينما قام الأطباء بالمثل. في بعض الدراسات، عُرضت على الأطباء أيضًا اقتراحات الذكاء الاصطناعي ليروا ما إذا كان ذلك يساعدهم على الأداء بشكل أفضل.

ما مدى دقة أنظمة الذكاء الاصطناعي بمفردها؟

عبر جميع الدراسات، كان بإمكان أدوات الذكاء الاصطناعي في كثير من الأحيان إدراج التشخيص الصحيح ضمن قائمتها، لكنها عادة ما كانت أقل دقة من الأطباء عند إجبارها على اختيار إجابة واحدة فقط. عندما احتُسب التخمين الأول فقط، كانت نماذج اللغة أقل دقة بحوالي 11% مقارنةً بمهنيي الرعاية الصحية في المتوسط. كلما كبرت قائمة التخمينات المسموح بها، تقلصت هذه الفجوة واختفت في النهاية — فبحلول الوقت الذي سُمح فيه بعشر تشخيصات محتملة، كانت أنظمة الذكاء الاصطناعي على الأقل بنفس احتمالية الأطباء في شمول الإجابة الصحيحة. بالنسبة لقرارات الفرز — تقدير مدى استعجال الحالة ومستوى الرعاية المطلوب — أدت الأنظمة البشرية والذكاء الاصطناعي أداءً مشابهًا عمومًا. ومع ذلك، تنوعت النتائج بشكل كبير بين النماذج الفردية وإعدادات الاختبار، مما يوحي أن بعض الأدوات أكثر موثوقية بكثير من غيرها.

ماذا يحدث عندما يستخدم الأطباء الذكاء الاصطناعي كشريك؟

فحصت تسع دراسات التعاون مباشرة: عمل الأطباء أولاً بمفردهم ثم أعادوا المهمة بمساعدة نموذج لغة. وكانت النتيجة مشجعة. عندما حظي الأطباء بدعم من الذكاء الاصطناعي، تحسنت دقتهم عمومًا، خصوصًا عندما سُمح لهم بإعطاء عدة تشخيصات محتملة. على سبيل المثال، بمساعدة نموذج لغة، تحسنت دقتهم لقوائم مرشحين قصيرة بنحو 10–40% تقريبًا، اعتمادًا على عدد الخيارات المطروحة. يشير هذا إلى أن الذكاء الاصطناعي مفيد بشكل خاص كشريك للعصف الذهني يوسع مجموعة الاحتمالات ويدفع الأطباء للنظر في حالات أقل وضوحًا، بينما يظل الخبير البشري هو الذي يتخذ القرار النهائي.

Figure 2
Figure 2.

لماذا قد تبدو النتائج الحالية أفضل مما هي عليه في الواقع

رغم أن الأرقام تبدو واعدة، يحذر المؤلفون من أن معظم الدراسات الحالية بعيدة عن الكمال. اعتمدت الكثير منها على ملخصات حالات مصقولة على طريقة الكتب المدرسية أو حالات نادرة مختارة للتعليم، وليس على القصص الفوضوية والناقصة التي يعرضها المرضى في العيادات الحقيقية. استخدم عدد قليل فقط مرضى في الوقت الفعلي. غالبًا ما كانت تفاصيل كيفية اختيار الحالات، وكيفية إعداد أدوات الذكاء الاصطناعي، وكيفية تقييم الإجابات مفقودة. استُخدمت المعلومات البصرية مثل الفحوصات أو صور الجلد بشكل أقل، وعندما اختُبرت الصور وحدها، تفوق الأطباء ذوو الخبرة بوضوح على الذكاء الاصطناعي. كما يبرز الباحثون أن الاستجابة لنصائح الذكاء الاصطناعي قد تختلف بين الممارسين المبتدئين والخبراء، وأن قضايا مثل خصوصية البيانات والتحيز الخفي والاعتماد المفرط على اقتراحات الآلة لا تزال غير مُختبرة إلى حد كبير في الممارسة اليومية.

ماذا يعني هذا للمرضى ومستقبل الرعاية

بشكل عام، تقترح الدراسة أن روبوتات الدردشة الحالية ونماذج اللغة ليست جاهزة لاستبدال طبيبك، لكنها قد تصبح قريبًا مساعدين ذوي قيمة. إذا اُستخدمت بحكمة، يمكنها المساعدة في توليد قوائم أوسع من التشخيصات المحتملة ودعم اتخاذ قرارات أكثر دقة، لا سيما عندما يظل الأطباء هم المسؤولون ويعاملون الذكاء الاصطناعي كرأي ثانٍ وليس حكمًا نهائيًا. قبل أن تُدمج هذه الأدوات في الرعاية الروتينية، يؤكد المؤلفون أننا بحاجة إلى تجارب مصممة بشكل أفضل في العالم الواقعي، ومعايير تقرير أوضح، وضمانات قوية تتعلق بالسلامة والعدل والخصوصية. بالنسبة للمرضى، يعني هذا أن الذكاء الاصطناعي قد يساعد فريق رعايتك يومًا ما على التفكير بصورة أوسع والتصرف بسرعة أكبر، لكن أي نظام موثوق يجب اختباره بنفس صرامة اختبار دواء جديد أو جهاز طبي.

الاستشهاد: Chen, M., Wu, Y., Ma, J. et al. Independent and collaborative performance of large language models and healthcare professionals in diagnosis and triage. npj Digit. Med. 9, 222 (2026). https://doi.org/10.1038/s41746-026-02409-8

الكلمات المفتاحية: الذكاء الاصطناعي في التشخيص الطبي, الفرز السريري, نماذج اللغة الكبيرة, تعاون الطبيب والذكاء الاصطناعي, سلامة الصحة الرقمية