Clear Sky Science · ar

الانحياز البنيوي في الأخطاء وتحليل الأذى المرجح لوزن الأخطاء: مقارنة ChatGPT بأطباء العناية المركزة في تفسير اختبارات حموضة-قلوية الدم: دراسة رصدية مستقبلية

2026-03-27 · العودة إلى الفهرس

لماذا تهم هذه الدراسة القارئ اليومي

تجرب المستشفيات بشكل متزايد الذكاء الاصطناعي لمساعدة الأطباء على اتخاذ القرارات، لا سيما في وحدات العناية المركزة المكتظة. تطرح هذه الدراسة سؤالاً بسيطاً لكنه حيوي: عندما يساعد برنامج حاسوبي مثل ChatGPT في تفسير اختبار دم حساس يوجه علاجاً منقذاً للحياة، هل أخطاؤه آمنة كما أخطاء أطباء العناية المركزة ذوي الخبرة، أم أنها قد تخفي بهدوء مشكلات خطيرة؟

Figure 1. مقارنة كيفية تفسير أطباء العناية المركزة والذكاء الاصطناعي لفحوصات دم حرجة وكيف يؤثر ذلك على سلامة المرضى.

اختبار الدم في صلب القصة

تركز الأبحاث على اختبارات غازات الشريان، التي تقيس مدى حموضة الدم ومدى فعالية تنفس المريض وتلقيه للأكسجين. في وحدة العناية المركزة، تساعد هذه النتائج الأطباء على اتخاذ قرار بشأن تعديل جهاز التنفس الاصطناعي، إعطاء السوائل، أو تغيير الأدوية. قد تكون الأنماط بسيطة، مثل مشكلة واحدة رئيسية في التنفس أو الأيض، أو معقدة، بوجود عدة مشاكل في الوقت نفسه. هذه الأنماط «المختلطة» شائعة لدى المرضى شديدي المرض ويمكن أن تشير إلى أن الجسم يكافح في عدة جوانب في آن واحد.

كيف جرت المقارنة وجهاً لوجه

جمع الفريق بيانات من 50 مريضاً بالغاً في وحدة العناية المركزة في مستشفى واحد، مستخدمين فقط أول اختبار غازات دم مستوفٍ للشروط من كل شخص. لكل مريض، أنشأ الباحثون قصة سريرية قصيرة تضمنت أرقام غازات الدم وتفاصيل رئيسية أخرى مثل العلامات الحيوية، وظائف الأعضاء، ودعم التنفس. ثم فسرت ثلاث مجموعات كل حالة بصورة مستقلة: أطباء العناية المركزة المتواجدون عند السرير، وChatGPT باستخدام موجه إنجليزي ثابت، ولجنة خبراء منفصلة قدمت «المعيار الذهبي» النهائي. وقد صنفت كل التفسيرات لاحقاً إلى ست مجموعات بسيطة، بما في ذلك الحالة الطبيعية، وأربعة أنواع أساسية من الاضطرابات، وفئة مختلطة حيث يوجد أكثر من مشكلة واحدة.

النظر إلى ما وراء الصواب أو الخطأ البسيط

عندما نظر الباحثون فقط إلى الصحة العامة للإجابات، بدت الأرقام قريبة إلى حد معقول: كان الأطباء صحيحين في 82 في المئة من الحالات، بينما كان ChatGPT صحيحاً في 72 في المئة. وأشارت إحصاءات الاتفاق القياسية إلى أن كلا الطرفين أديا في نطاق «معتبر». لكن الفريق بحث أعمق في كيفية خطأ كل طرف، لا فقط عدد المرات. فصلوا الحالات البسيطة عن المختلطة، وفحصوا مدى قدرة كل مفسر على الكشف عن مكونات مشكلة التنفس مقابل الأيض، وأنشأوا «درجة ضرر» اعتبرت بعض الأخطاء أكثر خطورة من غيرها. في هذا النظام، كان وصف حالة معقدة حقاً بأنها «طبيعية» يحمل أعلى وزن، لأنه قد يطمئن الطاقم بشكل زائف.

Figure 2. إظهار كيف يمكن للذكاء الاصطناعي أن يفوت مشاكل دموية معقدة يكتشفها الأطباء، مما يؤدي إلى أخطاء غير مرئية وأكثر خطورة.

اختلافات خفية في الحالات المعقدة والخطرة

عندما قسمت النتائج حسب التعقيد، ظهرت تباينات مهمة. كان لدى ما يقرب من نصف المرضى فعلاً مشاكل حمض-قاعدة مختلطة. تعرف أطباء العناية المركزة على هذه الحالات بشكل صحيح في معظمها تقريباً، بينما فوت ChatGPT أكثر من ثلثها. في نحو سدس الحالات المختلطة، وصف ChatGPT حالة الدم بأنها طبيعية، نمط أطلق عليه المؤلفون «طمأنة زائفة»، وهو ما لم يظهره الأطباء أبداً. أظهر الفحص الأدق للمكونات المنفصلة للتنفس والأيض أن ChatGPT كان أكثر ميلاً لتجاهل جزء التنفس من الاضطراب. عند تطبيق نظام تسجيل الضرر، كانت أخطاء ChatGPT تحمل متوسط ضرر أعلى بكثير من أخطاء أطباء العناية المركزة، رغم تداخل دقتهما العامة.

ماذا يعني هذا لاستخدام الذكاء الاصطناعي في الرعاية الحرجة

للقارئ العام، الرسالة الأساسية هي أن دقة العنوان المماثلة لا تعني أن أداة الذكاء الاصطناعي تتصرف مثل الطبيب حيثما يهم الأمر أكثر. في هذه عينة واقعية من وحدة العناية المركزة، كان ChatGPT غالباً ما يصنف الأنماط الشائعة بشكل جيد، لكنه واجه صعوبات أكبر مع المشكلات المختلطة المعقدة التي تشير إلى مرض شديد وتتطلب إجراءً سريعاً. وبما أن الطاقم لا يمكنه دائماً أن يحدد مسبقاً أي الحالات بسيطة وأيها معقدة، والأدوات الحالية لا تحذر بشكل موثوق عندما تكون غير متأكدة، يجادل المؤلفون بأن ChatGPT لا ينبغي أن يحل محل حكم الطبيب في قرارات غازات الدم هذه. بدلاً من ذلك، يقترحون أن تركز اختبارات الذكاء الاصطناعي الطبية المستقبلية أقل على بطاقات الدرجات العامة وأكثر على عدد المرات التي يفوت فيها النظام حالات خطرة، وكيف يتعامل مع التعقيد، ومدى ضرر أخطائه المحتمل على المرضى.

الاستشهاد: Gulen, D., Gözden, H.E., Ekin, S. et al. Structural error asymmetry and harm-weighted analysis of ChatGPT versus ICU Physicians in acid–base interpretation: a prospective observational study. Sci Rep 16, 15184 (2026). https://doi.org/10.1038/s41598-026-44576-4

الكلمات المفتاحية: العناية المركزة, تفسير غازات الدم, الذكاء الاصطناعي السريري, سلامة التشخيص, استخدام ChatGPT في الطب