Clear Sky Science · ar

نماذج اللغة الكبيرة متعددة الوسائط تتحدى تحدي الصور في NEJM

· العودة إلى الفهرس

لماذا يهم هذا المرضى والأطباء

الحصول على التشخيص الصحيح في الوقت المناسب يمكن أن يكون الفرق بين علاج سريع وسنوات من المعاناة. ومع ذلك لا يزال الأطباء، حتى ذوو التدريب العالي، يخطئون أو يتأخرون في التشخيص، خاصةً في الحالات النادرة أو غير المألوفة. يطرح هذا البحث سؤالاً لافتاً: عندما تُزوَّد الأنظمة المتقدمة اليوم بالصور الطبية والتفاصيل السريرية، هل يمكنها تشخيص الحالات المعقدة بشكل أفضل من أعداد كبيرة من الأطباء الحقيقيين — وإذا كان الأمر كذلك، فما مدلول ذلك على الرعاية الطبية في المستقبل؟

Figure 1
الشكل 1.

لغز ضخم مُكوّن من حالات واقعية

اتجه الباحثون إلى ميزة طويلة الأمد من مجلة نيو إنجلاند للطب تسمى «تحدي الصورة». كل تحدٍ يعرض صورة طبية لمريض حقيقي — مثل صورة جلد أو أشعة سينية أو تصوير بالرنين المغناطيسي أو شريحة ميكروسكوبية — إلى جانب قصة سريرية قصيرة وخمسة تشخيصات محتملة. تراكمت منذ 2009 أكثر من 16 مليون إجابة من أكثر من 60,000 طبيب لكل حالة، ما خلق سجلاً عالمياً فريداً لأداء الأطباء على نفس الأسئلة الصعبة. من هذا الأرشيف اختار الفريق 272 حالة تغطي جميع الأعمار وكلا الجنسين ومجموعة واسعة من الحالات، من العدوى واضطرابات الجهاز المناعي إلى السرطانات والأمراض الوراثية والإصابات.

وضع الذكاء الاصطناعي والأطباء على أرضية متساوية

اختبر البحث ثلاث نماذج رائدة متعددة الوسائط من نماذج اللغة الكبيرة — أنظمة يمكنها معاينة الصور وقراءة النص معاً: GPT‑4o وClaude 3.7 وDoubao. لكل حالة رأت النماذج أولاً الصورة فقط واضطرت لاختيار أحد الخيارات الخمسة مع تفسير. ثم رأت الصورة مع الوصف السريري وأجابت مرة أخرى. للحفاظ على عدالة الاختبار، استُخدمت النماذج بإعدادات قياسية، مع تعطيل البحث على الويب وميزات الاستدلال الإضافية، وكانت كل حالة تُشغّل في جلسة جديدة لتجنب التلوث بالإجابات السابقة. قيّم طبيبان استجابات الذكاء الاصطناعي مقابل الحلول الرسمية لمجلة نيو إنجلاند للطب، مع التركيز على ما إذا كان الاختيار النهائي يتطابق مع التشخيص الصحيح، تماماً كما في معيار البشر.

أداء فوق بشري عبر الأمراض والصور

عند تزويدها بالصور والنص معاً، تفوقت كل الأنظمة الثلاثة بوضوح على مجموعة الأطباء العالمية. وصل كل من Claude 3.7 وGPT‑4o إلى دقة تقارب 89–90%، مقارنةً بـ46.7% عن تصويت الأغلبية من المشاركين البشر — فجوة تزيد على 40 نقطة مئوية. حتى في أصعب الحالات، حيث كان أقل من 40% من الأطباء يصحّحون، ظل Claude 3.7 يحقق صحة تشخيص بنسبة 86.5%. امتد التفوق عبر معظم أنواع الأمراض وصيغ الصور: كانت النماذج قوية بشكل خاص في الحالات المرتبطة بالأدوية والاضطرابات الوراثية، وتعاملت ليس فقط مع الصور الفوتوغرافية والأشعة السينية بل أيضاً مجموعات الصور التنظيرية والباتولوجية والمختلطة. كان الأداء قوياً بنفس القدر للرجال والنساء، وفي بعض الفئات الأكثر ضعفاً، مثل الرضع دون سنة، كانت النماذج أدق بكثير من الأطباء.

Figure 2
الشكل 2.

عقول مختلفة، لا مجرد أسرع

ربما كان الاكتشاف الأكثر مفاجأة هو عدد المرات التي نجحت فيها النماذج حين أخفق الأطباء. في نحو نصف الحالات، كان Claude 3.7 صحيحاً بينما كانت أغلبية الأطباء مخطئة، وكانت الحالة العكسية — الأطباء صحيحون والنموذج مخطئ — نادرة. عموماً، بالنسبة لـClaude 3.7 كانت هناك نحو خمس عشرة حالة «تفوق للنموذج» مقابل حالة واحدة «تفوق للطبيب». ومع ذلك كان التوافق بين البشر والذكاء الاصطناعي على أي إجابة تُختار منخفضاً، ما يشير إلى أن الأنظمة لا تكرر أنماط البشر ببساطة بل تصل إلى تشخيصات صحيحة عبر مسارات مختلفة. إضافة النص السريري ساعدت عمومًا كثيراً، وكانت تزيد دقة الذكاء الاصطناعي بمقدار 28–42 نقطة مئوية مقارنةً بالصور وحدها. ومع ذلك، في جزء ضئيل من الحالات دفعت التفاصيل الإضافية النماذج من إجابة صحيحة مبنية على الصورة إلى إجابة خاطئة، ما يلمّح إلى أنواع جديدة من التحيزات وأنماط الفشل التي ستحتاج إلى دراسة دقيقة.

ما قد يعنيه هذا للرعاية المستقبلية

يستنتج المؤلفون أن نماذج اللغة الكبيرة متعددة الوسائط قد وصلت إلى مستوى «فوق بشري» في هذا الاختبار التشخيصي الصعب: فهي أدق من متوسط حشد الأطباء وتحافظ على تفوقها حتى عندما تُربك الحالات معظم الأطباء. في الوقت نفسه، يشير التداخل المنخفض مع اختيارات البشر إلى أنها تفكر بطرق تكاملية بدل أن تكون نسخاً رقمية من الأطباء. إذا استُخدمت بحكمة، يمكن أن تعمل هذه الأنظمة كقراء ثانٍ أقوياء، تقدم آراء مستقلة في الحالات الصعبة أو النادرة وتساعد في اكتشاف مشاكل قد يغفل عنها الأطباء البشريون. ليست جاهزة بعد لتحل محل الحكم السريري، لكنها قد تصبح قريباً شركاء ذوي قيمة بجانب السرير وفي غرفة القراءة، يراجعون عملنا بهدوء ويوسعون شبكة الأمان للمرضى.

الاستشهاد: Sheng, C., Shen, S., Wang, L. et al. Multimodal large language models challenge NEJM image challenge. Sci Rep 16, 8132 (2026). https://doi.org/10.1038/s41598-026-39201-3

الكلمات المفتاحية: تشخيص طبي, الذكاء الاصطناعي, التصوير الطبي, الأمراض النادرة, دعم اتخاذ القرار الإكلينيكي