Clear Sky Science · ar

CLWD: مجموعة بيانات نسيجية صينية لتصنيف أنواع سرطان غدة الرئة

· العودة إلى الفهرس

لماذا تهم مجموعة صور جديدة لسرطان الرئة

يبقى سرطان الرئة واحداً من أكثر السرطانات فتكا على مستوى العالم، وفي الصين يصيب عدداً أكبر من الناس مقارنة بأي مكان آخر. يعرف الأطباء الآن أن نوعاً شائعاً، سرطان غدة الرئة (adenocarcinoma)، ليس مرضاً موحداً بل عبارة عن فسيفساء من أنماط نمو مختلفة تحمل مخاطر متباينة للمريض. التمييز بين هذه الأنماط تحت المجهر صعب، حتى على الخبراء، ويتطلب وقتاً. تقدم هذه المقالة مجموعة بيانات مفتوحة جديدة من صور نسيجية رئوية عالية الجودة لمرضى صينيين، مصممة لمساعدة الباحثين في بناء أدوات حاسوبية قادرة على تمييز هذه الأنماط الدقيقة بشكل أكثر اتساقاً ودعماً للتشخيص والعلاج الأدق في نهاية المطاف.

Figure 1
Figure 1.

التحدي داخل الرئة

عند استئصال ورم رئوي للمريض، يقوم الأطباء الشرعيون بتقطيع النسيج إلى شرائح رقيقة، وصبغها، وفحص الشرائح تحت المجهر. تكشف هذه الشرائح في سرطان غدة الرئة عن عدة أنماط مميزة لنمو الخلايا الورمية وغزوها: بعض الأنماط تكون أكثر اعتدالاً وترتبط بنتائج أفضل، بينما تكون أنماط أخرى عدوانية ومرتبطة بزيادة احتمال عودة السرطان. تصنف الإرشادات الدولية الحالية هذه الأنماط في فئات مثل in situ وacinar وpapillary وlepidic وmicropapillary وsolid وcribriform. يساعد التعرّف الصحيح على النمط السائد في الورم الأطباء على تقدير المخاطر وقرارات المتابعة أو العلاج. مع ذلك، هذه العملية مجهدة وتخضع لخلافات بين المتخصصين.

تحويل الشرائح الزجاجية إلى بيانات رقمية

أدت التقدّمات في الماسحات الرقمية إلى إمكانية التقاط الشرائح الميكروسكوبية كاملةً كصور ضخمة ومفصّلة يمكن للحواسيب تحليلها. يتطلب بناء أدوات ذكاء اصطناعي موثوقة، مع ذلك، مجموعات بيانات كبيرة وموسومة بعناية وتعكس الممارسة السريرية الحقيقية. أنشأ المؤلفون مجموعة شرائح الرئة الصينية الكاملة (Chinese Lung Adenocarcinoma WSI Dataset - CLWD) بجمع 408 شريحة مصبوغة من 210 مرضى عولجوا في مستشفى كبير بمقاطعة يونان بين 2020 و2023. تم مسح كل شريحة بتكبير عالٍ جداً، مانحاً مستوى من التفاصيل يقارب ما يراه أخصائي الباثولوجيا تحت المجهر. اختار خبراء باثولوجيا سرطان الرئة مقاطع ممثلة، تحققوا من جودة الصبغ وسلامة النسيج، واستبعدوا الشرائح الغامضة أو التي قد تُفسّر خطأً. إلى جانب الصور، جمع الفريق معلومات مُعماة مثل عمر المريض وجنسه وفئة التشخيص ووسوم أنماط النمو المفصّلة المتوافقة مع تصنيفات منظمة الصحة العالمية لعامي 2015 و2021.

كيف يتعلم الحاسوب من الشرائح

الصور في CLWD كبيرة جداً بحيث لا يمكن إدخالها إلى الشبكة العصبية دفعة واحدة. بدلاً من ذلك، يُقسّم كل صورة شريحة كاملة آلياً إلى رقع مربعة صغيرة متعددة تحتوي فقط على نسيج، مع ترشيح الخلفية الفارغة والعيوب الناتجة عن المسح. تستخدم الدراسة منهجية تُعرف بالتعلّم متعدد الحالات (multiple-instance learning)، حيث تُعامل كل الرقع من الشريحة كمجموعة واحدة. تستخرج شبكة عصبية مُدربة مسبقاً ميزات بصرية من كل رقعة، ثم تتعلّم نماذج متخصصة كيفية دمج هذه الميزات لتقرير وسوم النوع الفرعي الأنسب للشريحة بأكملها. قيّم المؤلفون ثلاث طرق حديثة معتمدة على الانتباه — CLAM وTransMIL ومحوّل بياني (Graph Transformer) — كل منها مصمّم للتركيز على المناطق الأكثر معلوماتية والعلاقات بين الرقع. يعكس هذا الإطار كيف يفحص الخبير البشري مناطق مختلفة من الشريحة بصرياً قبل تكوين حكم إجمالي.

Figure 2
Figure 2.

اختبار مجموعة البيانات

للتحقق مما إذا كانت CLWD مفيدة فعلاً للتشخيص بمساعدة الحاسوب، أجري الفريق تجارب واسعة النطاق. قسموا المرضى إلى مجموعات منفصلة للتدريب والاختبار بحيث لا تظهر صور من نفس الشخص في المجموعتين معاً، واستخدموا التحقق المتقاطع المتكرر لتقليل التقلبات العشوائية. دربت النماذج الثلاثة للتمييز بين سبعة أنماط نمو ومجموعات تشخيصية مرتبطة. قيس الأداء باستخدام مقاييس معيارية تقيم مدى قدرة النماذج على فصل نوع فرعي واحد عن الآخرين. على مدار العديد من التجارب، حققت النماذج قدرة تمييز عالية، لا سيما للأنماط المحددة بوضوح مثل in situ وبعض الأشكال الغازية، مما يدل على أن المجموعة تحتوي إشارات بصرية متسقة وقابلة للتعلم. عندما طُبقت نفس الطرق على مجموعة بيانات أمريكية موجودة من دارتموث، حققت CLWD نتائج مساوية أو أفضل في كثير من الحالات، مما يشير إلى أنها معيار قوي ومكمل قيم للمقارنات عبر البلدان.

ماذا يعني هذا للمرضى والباحثين

تقدم مجموعة CLWD مجموعة مفتوحة ومنسقة جيداً من صور سرطان الرئة لمرضى صينيين، جسرًا لفجوة في الموارد الحالية التي بُنيت إلى حد كبير على مجموعات غربية. من خلال إقران معلومات سريرية غنية بوسوم شرائح مُراجعة بعناية، توفر أساساً متيناً للباحثين لتطوير ومقارنة أنظمة ذكاء اصطناعي للكشف المبكر والتصنيف الدقيق لأنواع سرطان غدة الرئة. بينما للمجموعة قيود — فهي قادمة من مستشفى واحد، وبعض الأنواع الفرعية أقل شيوعاً، ويشملها صبغ قياسي فقط — فإنها تُمثل خطوة مهمة نحو باثولوجيا أكثر شمولية ومبنية على البيانات. مع نضوج الأدوات المستقبلية المدربة على CLWD ومجموعات بيانات مماثلة، قد تساعد الأطباء الشرعيين على اكتشاف الأنماط عالية المخاطر بمزيد من الموثوقية، وتوجيه الرعاية والمتابعة، وتحسين نتائج المرضى المصابين بسرطان الرئة على المدى الطويل.

الاستشهاد: Chen, Y., Zhao, H., Wang, L. et al. CLWD: a Chinese histopathology dataset for lung adenocarcinoma subtype classification. Sci Data 13, 599 (2026). https://doi.org/10.1038/s41597-026-06906-z

الكلمات المفتاحية: سرطان غدة الرئة, الباثولوجيا الرقمية, صور نسيجية هيستوباثولوجية, التعلّم العميق, أنواع السرطان الفرعية