Clear Sky Science · ar

تقييم خطر الانحياز في التجارب السريرية باستخدام نماذج اللغة الكبيرة وROBUST-RCT: دراسة جدوى

· العودة إلى الفهرس

لماذا هذا مهم للمرضى والأطباء

تَعتمد الطب الحديث على التجارب السريرية لتقرير العلاجات الفعّالة، لكن حتى الدراسات المصممة جيدًا يمكن أن تضلّل إذا كانت متحيزة. فحص كل تجربة بدقة بحثًا عن مشاكل خفية عمل بطيء ومعقّد يمكن أن يؤخر تحديث الإرشادات الطبية لسنوات. تستكشف هذه الدراسة ما إذا كانت نماذج اللغة الكبيرة — أنظمة الذكاء الاصطناعي المتقدمة التي تقرأ وتحلل النصوص — قادرة على مساعدة البشر في الحكم بسرعة وثبات أكبر على مدى موثوقية التجارب السريرية، باستخدام أداة أحدث وأبسط تسمى ROBUST-RCT.

كيف يُقيَّم جودة التجارب اليوم

تُعتبر التجارب السريرية غالبًا المعيار الذهبي، لكنها قد تتشوّه بسبب عيوب التصميم أو التقارير الضعيفة أو التحليلات الانتقائية. لكشف هذه القضايا، يستخدم المراجعون عادة قائمة فحص مخاطر الانحياز 2 (RoB 2) التابعة لكوكران. ورغم صرامتها، فإن RoB 2 تستغرق وقتًا طويلًا، ويصعب تطبيقها حتى على الخبراء، وتُسفر عن اتفاق متواضع بين المراجعين المختلفين. في الوقت نفسه، يستمر عدد التجارب المنشورة سنويًا في الزيادة، لكن عدد الدراسات التي تُضمّن فعليًا في المراجعات المنهجية لم يواكب ذلك، والعديد من المراجعات تكون قديمة بالفعل عند النشر. هذا الفارق المتنامي حفّز الاهتمام بأدوات أسهل في الاستخدام وبالمساعدة التقنية من الذكاء الاصطناعي.

أداة جديدة ودور للذكاء الاصطناعي

ROBUST-RCT هي بديل طُوّر مؤخرًا لـ RoB 2. بدلاً من محاولة التقاط كل مصدر محتمل للانحياز، تركز على ستة بنود أساسية شائعة ومرتبطة بقوة بتضخيم أو تشويه تأثيرات العلاج. صممها علماء الوبائيات لتحقيق توازن بين البساطة والصرامة العلمية، واختُبرت قابليتها للاستخدام مع مراجعِين مبتدئين. وبما أن ROBUST-RCT أحدث وأقل شهرة من RoB 2، رَأى المؤلفون فرصة: دمج هذه قائمة التحقق المبسطة مع نماذج اللغة الكبيرة لمعرفة ما إذا كان بإمكان الذكاء الاصطناعي مساعدة المراجعين البشريين بشكل موثوق في تقدير مخاطر الانحياز.

شكل 1
الشكل 1.

ما اختبره الباحثون بالفعل

اختار الفريق عشوائيًا 20 تجربة دوائية مفهرسة في PubMed Central وبعد الاستبعادات انتهى بهم الأمر إلى 9 تجارب عشوائية محكمة لتحليل مفصل. استخدم ثلاثة باحثين طبيين في بداياتهم المهنية دليل ROBUST-RCT لتقييم النتيجة الأساسية لكل تجربة بشكل مستقل، ثم حلّوا أي خلافات في اجتماعات توافق. بالتوازي، طُلب من أربعة نماذج لغة كبيرة مختلفة — GPT-4-turbo وGemini 2.5 Pro Preview وDeepSeek-R1 وQwen3-235B-A22B — الاطلاع على ملفات PDF الكاملة للتجارب مع موجه تفصيلي خطوة بخطوة يشرح كيفية تطبيق ROBUST-RCT. السؤال الأساسي كان: ما مدى تطابق التقييمات النهائية لكل ذكاء اصطناعي مع توافق البشر عبر البنود الستة الأساسية للأداة؟

مدى اتفاق النماذج مع البشر

لقياس الاتفاق، استخدم المؤلفون إحصائية تُسمى AC2 لغويت، التي تحسّن من مقاييس كابا المألوفة وتتعامل بشكل أفضل مع أنماط التقييم غير المتوازنة. عبر 54 مقارنة مزدوجة بين البشر والذكاء الاصطناعي، وصلت ثلاثة من النماذج الأربعة على الأقل إلى موثوقية "معتدلة" عند القياس احتماليًا، ما يعني أن تقييماتها كانت غالبًا مشابهة لتوافق البشر، وكانت الخلافات الكبيرة نادرة نسبيًا. قدّمت Gemini 2.5 Pro Preview الأداء الأفضل (AC2 = 0.69)، تلتها Qwen3-235B-A22B (0.65) وGPT-4-turbo (0.60). كان DeepSeek-R1 الأضعف (0.46) وميلًا إلى تقييم التجارب على أنها أكثر تحيّزًا من تقييم البشر، وربما لأنّه اعتمد على استخراج نصي فقط ولم يستفد بالكامل من الجداول والأشكال. جدير بالذكر أنه عندما نظَر المؤلفون فقط إلى اتفاق المراجعين البشر قبل اجتماعات النقاش، كان اتفاقهم الخاص (مؤشر فليس كابا = 0.49) مشابهًا لما أُبلغ عنه لأداة RoB 2 الأقدم.

شكل 2
الشكل 2.

ما يعنيه هذا لمراجعات الأدلة المستقبلية

على الرغم من حجم العينة الصغير، تبيّن هذه الدراسة التجريبية أن عدة نماذج لغة كبيرة حالية قادرة على الوصول إلى اتفاق مع المراجعين البشر بدرجة معتدلة على الأقل عند تطبيق ROBUST-RCT، وهي أداة مبسطة لتقدير مخاطر الانحياز في التجارب السريرية. عمليًا، قد تُستخدم هذه النماذج في المستقبل كـ "مراجع ثالث" لكسر التعادلات، أو لتمييز الأخطاء المحتملة، أو لفرز الدراسات مقدمًا حتى يتمكّن الخبراء البشريون من التركيز على الحالات الأكثر تعقيدًا أو الخلافية. يؤكد المؤلفون أن الذكاء الاصطناعي لن يحل محل الحكم البشري وأن القضايا الأخلاقية — مثل خصوصية البيانات، والتدريب على مواد محمية بحقوق الطبع والنشر، وخطر الاعتماد المفرط على الأدوات الآلية — يجب معالجتها. ومع ذلك، تشير النتائج إلى أن الذكاء الاصطناعي الموجه بعناية قد يساعد في إبقاء المراجعات المنهجية محدثة، مما يتيح للأطباء ولجان إعداد الإرشادات قضاء وقت أقل في التقييمات الفنية ووقتًا أكثر في تفسير ما تعنيه الأدلة المجتمعة لرعاية المرضى.

الاستشهاد: Vidor, P.R., Casiraghi, Y., de Souza, A.M. et al. Assessing the risk of bias of clinical trials with large language models and ROBUST-RCT: a feasibility study. Sci Rep 16, 13723 (2026). https://doi.org/10.1038/s41598-026-44303-z

الكلمات المفتاحية: خطر الانحياز, التجارب السريرية, المراجعات المنهجية, نماذج اللغة الكبيرة, الطب المبني على الأدلة