Clear Sky Science · ar

مقارنة توافق الاستنتاجات المنشورة للتجارب السريرية بين نماذج لغوية كبيرة عبر أربعة منصات ذكاء اصطناعي

2026-04-02 · العودة إلى الفهرس

لماذا هذا مهم للرعاية الصحية اليومية

يعتمد الأطباء على التجارب السريرية الكبيرة لتقرير أي العلاجات آمنة وفعالة. في الوقت نفسه، تتحسّن أدوات الذكاء الاصطناعي الجديدة في قراءة وتلخيص البحوث الطبية. تطرح هذه الدراسة سؤالاً بسيطاً لكنه مهمّاً للمرضى والعيادات على حد سواء: عندما تقرأ هذه الأدوات نفس التجارب التي يقرأها الخبراء البشر، هل تصل إلى نفس الاستنتاجات النهائية حول ما يعمل وما لا يعمل؟

كيف اختبر الباحثون أدوات الذكاء الاصطناعي

ركز الفريق على 20 تجربة سريرية معروفة نُشرت في مجلة New England Journal of Medicine، تغطي أمراض القلب، والجلطات الدماغية، والسكري، والسرطان، وجراحة المخ. تم اختيار هذه التجارب لكونها مصممة ومبلغ عنها بدقة، ما يجعلها أرضية اختبار قوية. بدلاً من تزويد الأنظمة بالمقالات الكاملة، قدّم الباحثون الجداول والأشكال التي تحتوي على الأرقام فقط، مثل معدلات الوقوع ومخططات النتائج. أجبر ذلك الأدوات على الاعتماد على البيانات نفسها بدلاً من نسخ ملخّصات المؤلفين المكتوبة.

Figure 1. كيف تقرأ أدوات الذكاء الاصطناعي المختلفة نفس التجارب الطبية ومدى توافقها مع استنتاجات الأطباء.

ما طُلِب من أنظمة الذكاء الاصطناعي فعله

تم اختبار أربعة نماذج لغوية واسعة الانتشار: ChatGPT وGemini وGrok3 وClaude. تلقى كل نموذج نفس المطالَب المعيارية، التي طلبت تفسير البيانات بخمس طرق. كان على النماذج شرح النتائج العامة، تفسير الإحصاءات، ربط النتائج برعاية المرضى، الإشارة إلى قيود الدراسة، والاقتراح كيف يمكن تطبيق النتائج عملياً. ثم قام محلّلان مدرّبان بمقارنة كل إجابة للذكاء الاصطناعي مع ورقة التجربة الأصلية وتقييم الأداء في كلٍّ من هذه المناطق الخمس على مقياس من صفر إلى خمسة.

مدى توافق الذكاء الاصطناعي مع الاستنتاجات البشرية

أظهر ChatGPT أقوى توافق مع استنتاجات التجارب المنشورة، محققاً درجة وسطية كاملة 25 من 25 عبر 20 تجربة. جاء Gemini ثانياً بدرجة 21 من 25، بينما تبعهما Grok3 وClaude بدرجات وسطية 18 و17 على التوالي. أدّت جميع الأدوات الأربعة بشكل أفضل عند وصف سبب أهمية النتائج للمرضى، وسجل ChatGPT خصوصاً أعلى الدرجات في كل مجال. كما برز Gemini أيضاً في رصد نقاط ضعف الدراسة والعوامل المحتملة المربكة، في حين كان أداء Grok3 وClaude أقل موثوقية في التعرف على القيود وفي تقديم اقتراحات علاجية عملية. اتفق المقيّمان البشريان بشكل وثيق مع بعضهما، ما يشير إلى أن طريقة التقييم نفسها كانت مستقرة.

Figure 2. عرض خطوة بخطوة لكيفية تحويل الذكاء الاصطناعي لأرقام التجارب إلى أحكام حول العلاجات وحدودها.

تحذير بشأن التدريب المخفي والسلامة في العالم الحقيقي

على الرغم من أن الأرقام تبدو مثيرة للإعجاب، يحذّر المؤلفون من تفسير النتائج بحذر. التجارب المستخدمة مشهورة ومن المرجح أنها ظهرت في بيانات تدريب هذه الأنظمة، مما يعني أن الأدوات ربما «تعرف» هذه الدراسات مسبقاً وقد تكون تستعيد أنماطاً رأتْها سابقاً بدلاً من الاستدلال المستقل انطلاقاً من الجداول المقدمة. كما أن عدم التعمية حول أي نظام أنتج كل إجابة يترك مجالاً لتحيّز بشري طفيف في التقييم. بالإضافة إلى ذلك، كانت التجارب المختارة في الغالب ذات نتائج واضحة وإيجابية، وهذا يمثل سيناريو الأفضلية بدلاً من البحوث المعقّدة وغير المؤكدة التي غالباً ما تشكل قرارات العالم الحقيقي.

ماذا يعني هذا لرعاية المستقبل

لغير المختص، الخلاصة أن بعض أدوات الذكاء الاصطناعي، لا سيما ChatGPT وGemini، يمكنها غالباً قراءة بيانات التجارب الطبية والتوافق مع استنتاجات الخبراء، على الأقل بالنسبة للدراسات المعروفة وعالية الجودة. وهذا يشير إلى أنها قد تكون مساعدات مفيدة في تلخيص البحوث المعقدة وتنظيم الأدلة، لكنها ليست جاهزة لاستبدال الأطباء أو الباحثين. تاريخ تدريبها غير شفاف، وأداؤها يختلف عبر المنصات، ولم تُثبت إجاباتها كونها آمنة لاتخاذ قرارات علاجية مباشرة. يجادل المؤلفون بأنه ينبغي النظر إلى الذكاء الاصطناعي كمساعد قوي قادر على غربلة الأرقام وتسليط الضوء على الأنماط، بينما يظل الأطباء البشر مسؤولين عن الحكم والتعاطف والقرارات النهائية المتعلقة برعاية المرضى.

الاستشهاد: Mao, G., Snyder, W., Chinthala, A.S. et al. Benchmarking agreement between large language models and published clinical trial conclusions across four artificial intelligence platforms. Sci Rep 16, 15606 (2026). https://doi.org/10.1038/s41598-026-45326-2

الكلمات المفتاحية: نماذج لغوية كبيرة, تجارب سريرية, الذكاء الاصطناعي الطبي, تجميع الأدلة, دعم القرار السريري