Clear Sky Science · ar

تصنيف استجابة الورم تلقائياً وفق RECIST عبر نماذج لغوية كبيرة موجهة بالإرشادات

· العودة إلى الفهرس

لماذا هذا مهم للأشخاص المصابين بالسرطان

عند علاج شخص مصاب بالسرطان، يعتمد الأطباء على تقارير الفحوصات لتقرير ما إذا كان العلاج ناجعاً، أو ينبغي تغييره، أو يمكن إيقافه. قراءة وتلخيص هذه التقارير يستغرق وقتاً وقد يكون عرضة لأخطاء بسيطة. تستكشف هذه الدراسة ما إذا كان نموذج لغوي كبير، وهو نوع من الذكاء الاصطناعي القادر على فهم النص، يمكنه مساعدة الأطباء بأمان في فرز تقارير الفحص إلى فئات استجابة قياسية مع الاحتفاظ ببيانات المرضى داخل مرافق المستشفى.

كيف يتتبع الأطباء عادة تغيّرات الورم

في علم الأورام، تُستخدم الأشعة المقطعية روتينياً لمراجعة استجابة الأورام للعلاج. غالباً ما يستخدم الأطباء مجموعة قواعد تُسمى RECIST، التي تصنّف وضع المريض إلى فئات مثل استجابة كاملة، استجابة جزئية، مرض مستقر، تقدم مرضي، أو الحالة الأساسية قبل بدء العلاج. رغم أن العديد من المستشفيات تستخدم قوالب شبه منظمة لهذه التقارير، فإن الحكم النهائي حول الاستجابة كثيراً ما يُكتب بنص حر. هذا يعني أن خبيراً بشرياً يجب أن يفسر القياسات، يقارنها مع الفحوص السابقة، ويترجم كل ذلك إلى إحدى الفئات القياسية، وهي عملية قد تكون مملة وأحياناً غير متسقة.

Figure 1. نظام ذكاء اصطناعي في المستشفى يقرأ تقارير الأشعة المقطعية ويحوّلها إلى فئات بسيطة لاستجابة الورم للأطباء.
Figure 1. نظام ذكاء اصطناعي في المستشفى يقرأ تقارير الأشعة المقطعية ويحوّلها إلى فئات بسيطة لاستجابة الورم للأطباء.

ما الذي طُلِب من الحاسوب القيام به

اختبر الفريق في مستشفى جامعي ألماني ما إذا كان نموذج لغوي عام، LLaMA 3.3 بقدرة 70 مليار معلمة، يمكنه قراءة تقارير أشعة مقطعية حقيقية لمرضى السرطان وتعيين فئة RECIST الصحيحة دون تدريب إضافي على بيانات محلية. عملوا بالكامل دون اتصال داخل بنية المستشفى الآمنة بحيث لا تخرج معلومات المرضى من المؤسسة. قبل أن يرى النموذج التقارير، أُزيلت التسميات الأصلية للاستجابة، لكن جميع القياسات والقيم المرجعية بقيت في مكانها حتى يتمكن النظام من مقارنة أحجام الأورام الحالية مع الأساسات أو أصغر الأحجام المسجلة سابقاً.

طرق مختلفة لتوجيه الذكاء الاصطناعي

جرّب الباحثون ثلاث طرق لإخبار النموذج بما يجب فعله، تُعرف باستراتيجيات التوجيه. في نهج الصفر-إطلاق (zero-shot)، تلقى النموذج التقرير وتعليماً موجزاً ليُخرج إحدى الفئات الخمس. في نهج القليل-الأمثلة (few-shot)، عرضوا على النموذج عدة مقاطع تقارير مع الفئة الصحيحة، ليُعلَّم عبر العرض. في نهج سلسلة التفكير (chain-of-thought)، طُلب من النموذج أن يشرح استدلاله خطوة بخطوة بلغة بسيطة قبل ذكر الفئة النهائية، وجُمِعت عدة محاولات استدلال مستقلة للوصول إلى قرار بالأغلبية. عبر 142 تقريراً، قيس مدى مطابقة الذكاء الاصطناعي لخبراء البشر باستخدام الدقة ومقاييس التصنيف القياسية.

مدى تطابق النظام مع القرّاء البشريين

أدّت استراتيجية سلسلة التفكير أفضل أداء، حيث صنفت بشكل صحيح نحو أربعة من كل خمسة تقارير عموماً وحققت أعلى توازن بين كشف الحالات الإيجابية الحقيقية وتجنب الإنذارات الكاذبة. كانت جيدة بشكل خاص في التمييز بين الاستجابة الجزئية والمرض المستقر، وهما فئتان غالباً ما يُخطئ بينهما، وحسّنت الأداء في النتائج النادرة مثل الاستجابة الكاملة. برز توجيه الصفر-إطلاق بأداء جيد مفاجئ أحياناً، وأحياناً كان أفضل من إعطاء بعض الأمثلة، مما يشير إلى أن صياغة التعليمات قد تهم أكثر من مجرد إضافة أمثلة تدريبية. ساعد توجيه القليل-الأمثلة بعض الفئات الصعبة لكنه قد يُدخل أخطاء جديدة حين لا تعكس مجموعة الأمثلة الصغيرة تنوع التقارير الحقيقية بشكل كامل.

Figure 2. يقوم الذكاء الاصطناعي بتحليل تقرير الأشعة، ويستنتج تغيّر الأورام، ويكلّف بفئة استجابة ملونة من بين عدة نتائج.
Figure 2. يقوم الذكاء الاصطناعي بتحليل تقرير الأشعة، ويستنتج تغيّر الأورام، ويكلّف بفئة استجابة ملونة من بين عدة نتائج.

ما تكشفه الأخطاء والحدود

من خلال دراسة مصفوفات الالتباس، التي تُظهر أي الفئات كان النظام يميل إلى الخلط بينها، وجد المؤلفون أن طريقة سلسلة التفكير أنتجت أخطاء منهجية أقل ونمطاً يشبه الاستدلال الطبي الدقيق. ومع ذلك، ظل النموذج يواجه صعوبة في الحالات الحدية حيث لم يميز النص بوضوح بين فحص ابتدائي وفحص لاحق لا يبقى فيه ورم مرئي. استخدمت الدراسة تقارير من مؤسسة واحدة اتبعت قوالب موحدة، لذا قد تختلف النتائج في مستشفيات ذات أساليب كتابة أقل صرامة. ركّز العمل على تقرير واحد في كل مرة ولم يدمج بعد سجلات أطول عبر زيارات متعددة، وهي ما تُطلبه بعض قواعد التجارب الرسمية.

ماذا قد يعني هذا لرعاية السرطان المستقبلية

الرسالة الأساسية لغير المتخصص هي أن ذكاءً اصطناعياً قادر على قراءة النص يمكن أن يساعد أطباء الأشعة بمراجعة ما إذا كانت الاستنتاجات المكتوبة في تقارير الأشعة المقطعية تطابق الأرقام والقواعد التي ترشد قرارات علاج السرطان. تشغيل النظام دون اتصال يحمي خصوصية المرضى مع توفير أداة قابلة للتوسع يمكن أن تقلّل العبء اليدوي وتبرز التناقضات. يؤكد المؤلفون أن مثل هذه النماذج ينبغي أن تدعم الأطباء ولا تحلّ مكانهم، وأن تُصادق عبر المزيد من المستشفيات وتُدمج مع مراجعة بشرية. إذا طُوّرت بعناية، قد تساعد أنظمة من هذا النوع في ضمان أن القصة الواردة في تقرير الفحص تتوافق بشكل أكثر موثوقية مع الحقائق في الصور والمعايير المستخدمة لتوجيه العلاج.

الاستشهاد: Mergen, M., Busch, F., Sauter, A.P. et al. Automated RECIST tumor response classification through prompt-guided large language models. Sci Rep 16, 16433 (2026). https://doi.org/10.1038/s41598-026-54979-y

الكلمات المفتاحية: ذكاء اصطناعي في الأشعة, استجابة الورم, RECIST, نماذج لغوية كبيرة, تقارير علم الأورام