Clear Sky Science · ru

CLWD: китайский гистопатологический датасет для классификации подтипов аденокарциномы легкого

2026-03-05 · Назад к списку

Почему важна новая коллекция изображений рака легкого

Рак легкого по‑прежнему один из самых смертоносных видов рака в мире, и в Китае он поражает больше людей, чем где‑либо ещё. Врачи теперь знают, что распространенная форма — аденокарцинома легкого — не является единой болезнью, а представляет собой мозаику разных вариантов роста опухоли, каждый из которых несет разный прогноз для пациента. Отличить эти паттерны в микроскопе трудно даже для экспертов, и процесс занимает время. В этой статье представлен новый открытый набор высококачественных изображений легочной ткани у китайских пациентов, созданный, чтобы помочь исследователям разрабатывать компьютерные инструменты, способные более последовательно распознавать эти тонкие паттерны и, в конечном счете, поддерживать более точную диагностику и лечение.

Вызов внутри легкого

Когда опухоль легкого удаляют, патологи нарезают ткань на тонкие срезы, окрашивают их и исследуют препараты в микроскоп. При аденокарциноме легкого на срезах видны несколько различных способов роста и инвазии опухолевых клеток: одни паттерны относительно «мягкие» и связаны с более благоприятным прогнозом, другие — агрессивные и ассоциированы с более высокой вероятностью рецидива. Современные международные рекомендации группируют эти паттерны в категории, такие как in situ, ацинарный, папиллярный, лентовидный (lepidic), микропапиллярный, солидный и криброзный. Правильная идентификация доминирующего паттерна в опухоли помогает врачам оценить риск и решить, как тщательно наблюдать или лечить пациента. Однако этот процесс трудоёмок и подвержен расхождениям между специалистами.

Преобразование стекол в цифровые данные

Достижения в области цифрового сканирования теперь позволяют сохранять целые микроскопические слайды в виде огромных детализированных изображений, которые могут анализироваться компьютерами. Создание надежных инструментов искусственного интеллекта требует больших, тщательно размеченных наборов данных, отражающих реальную клиническую практику. Авторы создали Китайский WSI‑датасет аденокарциномы легкого (CLWD), собрав 408 окрашенных слайдов от 210 пациентов, лечившихся в крупной больнице провинции Юньнань в период с 2020 по 2023 год. Каждый слайд был отсканирован при очень высоком увеличении, обеспечивая уровень детализации, сопоставимый с тем, что видит патолог в микроскоп. Опытные патологи по раку легкого отбирали репрезентативные области, проверяли качество окрашивания и целостность ткани, и исключали слайды с неоднозначными или вводящими в заблуждение признаками. Помимо изображений, команда собрала обезличенные данные, такие как возраст, пол пациента, диагностическая категория и подробные метки паттернов роста, совместимые с классификациями ВОЗ 2015 и 2021 годов.

Как компьютеры учатся на слайдах

Изображения в CLWD настолько велики, что их нельзя подать в нейронную сеть целиком. Вместо этого каждое целое изображение слайда автоматически разбивается на множество небольших квадратных патчей, содержащих только ткань, при этом отфильтровывается пустой фон и артефакты сканирования. В исследовании используется подход, известный как обучение с множественными экземплярами (multiple‑instance learning), при котором все патчи с одного слайда рассматриваются как группа. Предобученная нейронная сеть сначала извлекает визуальные признаки из каждого патча, а затем специализированные модели учатся комбинировать эти признаки, чтобы определить, какая метка подтипа лучше всего соответствует всему слайду. Авторы оценивали три современных метода на основе механизма внимания — CLAM, TransMIL и Graph Transformer — каждый из которых разработан для того, чтобы фокусироваться на наиболее информативных областях и на взаимосвязях между патчами. Эта схема отчасти имитирует то, как эксперт визуально просматривает разные участки слайда перед вынесением общей оценки.

Испытание набора данных

Чтобы проверить, действительно ли CLWD полезен для компьютерной поддержки диагностики, команда провела обширные эксперименты. Пациенты были разделены на отдельные группы для обучения и тестирования так, чтобы изображения одного и того же человека никогда не попадали одновременно в обе выборки, и применена повторная кросс‑валидация для снижения случайных колебаний. Три модели обучались различать семь паттернов роста и связанные диагностические группы. Эффективность измерялась стандартными метриками, оценивающими, насколько хорошо модели отделяют один подтип от остальных. В многочисленных запусках модели показали высокую дискриминацию, особенно для четко определенных паттернов, таких как in situ и несколько инвазивных форм, что свидетельствует о том, что в наборе данных содержатся последовательные и изучаемые визуальные сигналы. При применении тех же методов к существующему американскому датасету из Дарматауна, CLWD часто давал равные или лучшие результаты, что указывает на его силу в качестве эталона и ценного дополнения для межстрановых сравнений.

Что это значит для пациентов и исследователей

Коллекция CLWD предлагает открытый, хорошо кураторованный набор изображений рака легкого у китайских пациентов, заполняя пробел в существующих ресурсах, которые в основном основаны на западных когортах. Сочетая богатую клиническую информацию с тщательно проверенными метками слайдов, она предоставляет исследователям прочную основу для разработки и сравнения систем искусственного интеллекта для раннего выявления и более тонкой стратификации аденокарциномы легкого. Хотя у набора данных есть ограничения — он собран в одной больнице, некоторые подтипы встречаются реже, и используются только стандартные методы окрашивания — он все равно представляет важный шаг к более инклюзивной, основанной на данных патологии. По мере того как будущие инструменты, обученные на CLWD и аналогичных наборах, будут совершенствоваться, они смогут помочь патологам более надежно выявлять высокорисковые паттерны, направлять последующее наблюдение и в конечном счете улучшать исходы для людей с раком легкого.

Цитирование: Chen, Y., Zhao, H., Wang, L. et al. CLWD: a Chinese histopathology dataset for lung adenocarcinoma subtype classification. Sci Data 13, 599 (2026). https://doi.org/10.1038/s41597-026-06906-z

Ключевые слова: аденокарцинома легкого, цифровая патология, гистопатологические изображения, глубокое обучение, подтипы рака