Clear Sky Science · ar
CancerLLM: نموذج لغوي كبير في مجال السرطان
لماذا هذا يهم المرضى والأطباء
تعتمد رعاية السرطان على فهم كميات هائلة من النصوص — من ملاحظات الأطباء إلى تقارير المختبر. معظم أنظمة الذكاء الاصطناعي التي تقرأ هذه النصوص عامة وليست متخصصة في السرطان، وغالبًا ما تكون ضخمة ومكلفة وصعبة التشغيل لدى المستشفيات. يقدم هذا البحث نموذج CancerLLM، وهو نموذج لغوي أصغر مدرّب خصيصًا على سجلات السرطان، ويعد بمساعدة أكثر دقة في فهم حالة المريض مع احتياج أقل بكثير لموارد الحوسبة.

مساعد رقمي جديد يركز على السرطان
سعى الباحثون لبناء نموذج لغوي «يفكر» بلغة الأورام. بدلاً من جمع بيانات من الويب المفتوح، درّبوا CancerLLM على 2.7 مليون ملاحظة سريرية متعلقة بالسرطان وأكثر من نصف مليون تقرير علم الأمراض من أكثر من 30,000 مريض عبر 17 نوعًا من السرطان، بما في ذلك سرطان الثدي والرئة والقولون وسرطان الدم. انطلقوا من بنية نموذج موجودة ذات 7 مليارات معلمة ثم واصلوا تدريبه على هذه المواد الغنية بالسرطان، تلاها طور ثانٍ تعلّم فيه النموذج اتباع تعليمات على نمط المهام بطريقة تشبه كيف قد يسأل الطبيب مساعدًا رقميًا.
المساعدة في استخلاص التفاصيل الرئيسية من تقارير معقدة
مهمة رئيسية واحدة لـ CancerLLM هي «استخراج الظواهر السريرية»: استخراج خصائص السرطان المحددة من التقارير النصية الحرة. تشمل هذه الخصائص موقع الورم وحجمه ودرجته ومرحلته وحالة مستقبلات الهرمونات التي توجه العلاج. الأنظمة التقليدية تعامل هذا كمشكلة وسم كلمة بكلمة، لكن المؤلفين حولوا ذلك إلى مهمة سؤال‑إجابة. لكل جملة في التقرير، يُطرح على النموذج أسئلة بسيطة مثل «ما حجم الورم؟» أو «ما مرحلة السرطان؟» ويجب أن يرد بالعبارة المناسبة أو أن يشير إلى أن السؤال غير ذي صلة. في هذه المهمة، نافس CancerLLM أو تفوق على العديد من النماذج الطبية العامة الأكبر حجماً، محققًا دقة عالية مع احتفاظه بحجم مدمج عملي للاستخدام السريري.
من الملاحظات المتشتتة إلى تشخيص واضح
المهمة الثانية الأساسية هي توليد التشخيص. هنا يتلقى النموذج مقتطفًا واقعيًا من زيارة السرطان: أسباب المجيء للعيادة، موقع العلاج، الأعراض، ملاحظات الممرضة، الفحوصات السريرية، ونتائج الاختبارات. ثم يجب أن ينتج التشخيص الصحيح للسرطان، مثل سرطان الرئة أو لمفوما غير هودجكينية. عبر معيار تقييم واسع، تفوق CancerLLM بشكل كبير على نماذج طبية معروفة بها ما يصل إلى عشر مرات من عدد المعلمات، مع زيادة بمعدل يزيد عن تسع نقاط مئوية في درجة الدقة المركبة في المتوسط. وفي اختبار منفصل على مجموعة مستقلة من 2,000 مريض لم يَرَها من قبل، تصدّر CancerLLM مرة أخرى، مما يشير إلى قدرته على التعميم إلى مرضى جدد بدلًا من مجرد حفظ الحالات السابقة.

اختبار الصلابة في بيانات العالم الحقيقي الفوضوية
السجلات السريرية الحقيقية ليست نظيفة: تحتوي على أخطاء مطبعية واختصارات وحتى أخطاء وسم عرضية. بنى الفريق نوعين من قواعد الاختبار الخاصة لاستكشاف مدى هشاشة النموذج أو متانته أمام هذا التشويش. في أحدهما، أدخلوا عمدًا إجابات خاطئة أثناء التدريب لمحاكاة البيانات المشروحة خطأً ووجدوا أن CancerLLM صمد بمستوى مماثل أو أفضل من النماذج المماثلة، خاصة عندما كان معدل الخطأ مرتفعًا جدًا. وفي الآخر، أضافوا أخطاء إملائية مثل «cnacer» بدلًا من «cancer» بنسب متفاوتة. أظهر كل من CancerLLM ونموذج مقارنة قوي هبوطًا في الأداء كلما زادت الأخطاء، مما يؤكد أن حتى الذكاء الاصطناعي المتقدم حساس للنصوص الفوضوية وأن إدخال البيانات والمعالجة المسبقة الدقيقة لا يزالان أساسيين.
السرعة والكفاءة والحدود الحالية
نظرًا لضيق ميزانيات الأجهزة في المستشفيات، قارن الباحثون أيضًا زمن الحوسبة واستهلاك الذاكرة. ربما توفر النماذج الكبيرة ذات 70 مليار معلمة أداءً أفضل قليلًا في بعض مهام الاستخراج لكنها تتطلب عدة أضعاف من الذاكرة وأوقات معالجة أطول بكثير. بالمقابل، قدم CancerLLM دقة رائدة أو قريبة من الرائدة لكل من الاستخراج والتشخيص أثناء تشغيله على بطاقة رسومية عالية الأداء واحدة مع احتياجات ذاكرة متواضعة. كشفت تحليلات الأخطاء أن النموذج ما زال يواجه صعوبات في تمييزات دقيقة جدًا، مثل الأنواع الفرعية الطفيفة للسرطان، وتفاصيل التدرج الكامل للمرحلة، والاستخدام المكثف للاختصارات أو الأخطاء الإملائية في الملاحظات، مما يشير إلى مجالات تتطلب مزيدًا من تنظيف البيانات وتحسين النموذج في المستقبل.
ماذا يعني هذا لمستقبل الذكاء الاصطناعي في السرطان
بمصطلحات يومية، يشبه CancerLLM قارئ نصوص مدمجًا وماهرًا في السرطان يمكنه استخلاص تفاصيل حاسمة بسرعة من السجلات الطبية واقتراح تشخيصات محتملة للسرطان، كل ذلك مع قابلية تشغيل واقعية للمستشفيات. لا يحل محل أطباء الأورام، لكنه قد يوفر عليهم الوقت، ويدعم الدراسات البحثية، ويقلل التفاصيل المفقودة في السجلات المعقدة. بإصدار كل من إطار عمل النموذج ومجموعات بيانات تركيبية، يهدف المؤلفون إلى تحفيز المزيد من العمل على أدوات ذكاء اصطناعي فعالة وموثوقة مصممة لمجالات طبية محددة بدلًا من أنظمة تناسب الجميع.
الاستشهاد: Li, M., Zhan, Z., Huang, J. et al. CancerLLM: a large language model in cancer domain. npj Digit. Med. 9, 266 (2026). https://doi.org/10.1038/s41746-026-02441-8
الكلمات المفتاحية: الذكاء الاصطناعي في السرطان, تنقيب النصوص السريرية, دعم التشخيص, نماذج اللغة الطبية, معلوماتية الأورام