Clear Sky Science · ru
Сравнительное исследование прогнозирования послеоперационного отдалённого метастазирования рака лёгкого на основе моделей машинного обучения
Почему важно предсказывать распространение рака
Рак лёгкого остаётся одним из самых смертельных видов рака, даже если хирурги удаляют все видимые опухоли. У многих пациентов позже появляются скрытые очаги болезни в мозге, костях, печени или других органах. Врачи хотели бы знать сразу после операции, у кого с большей вероятностью возникнет такое отдалённое распространение, чтобы адаптировать план наблюдения и лечения. В этом исследовании изучается, могут ли современные компьютерные алгоритмы — модели машинного обучения — помочь предсказать повышенный риск, опираясь на данные, которые больницы уже собирают в рутинной практике.
Внимательное изучение большого числа пациентов
Исследователи проанализировали записи 3 120 человек с раком лёгкого стадий I–III, у которых были удалены опухоли в одном онкологическом центре в Китае. У всех было как минимум двухлетнее наблюдение. Для каждого пациента команда собрала 52 типа данных: возраст, пол, масса тела, курение, результаты сканирования, данные об операции, лабораторные анализы и сведения о полученной после операции адъювантной терапии, такой как химио- или радиотерапия. Со временем у 596 пациентов развились отдалённые метастазы, у 2 524 — нет. Такое реальное сочетание случаев позволило команде определить, какие признаки связаны с последующим распространением болезни.

Обучение компьютеров распознавать рисковые паттерны
Вместо того чтобы полагаться на одну формулу, учёные сравнили девять разных методов машинного обучения — от простых деревьев решений до более сложных техник, объединяющих множество слабых моделей. Сначала они с помощью математического отбора сократили исходные 52 фактора до меньшего информативного набора. Затем в повторяющихся циклах обучали каждую модель на части данных и тестировали на пациентах, которых модель раньше «не видела». Поскольку лишь примерно один из пяти пациентов получил метастазы, при обучении сделали поправку, чтобы модель не выдавала «низкий риск» для всех подряд. Оценку качества проводили по нескольким метрикам, в том числе по тому, насколько хорошо модели разделяют группы высокого и низкого риска и насколько предсказанные вероятности соответствуют фактическим исходам.
Поиск наиболее надёжной модели
Среди девяти подходов особенно выделилась модель Gradient Boosting Decision Tree (GBDT). На тестовой выборке она корректно ранжировала пациентов с общей точностью примерно 77%, а её суммарный показатель дискриминации (площадь под ROC-кривой) составил 0,81, что считается высоким для медицинских прогностических инструментов. Модель была особенно хороша в выявлении пациентов, которые останутся без метастаз (высокая «отрицательная прогностическая ценность»), то есть результат «низкий риск» обычно оказывался обоснованным. При проверке стабильности на многих разных случайных разрезах данных её результаты оставались устойчивыми, что указывает на то, что модель не просто запомнила особенности одной конкретной подвыборки.
Что влияет на решения модели
Одно из частых замечаний в адрес машинного обучения — его «чёрный ящик». Чтобы это прояснить, авторы использовали метод объяснимости SHAP, который назначает каждому фактору вклад в окончательную оценку риска для каждого пациента. Анализ показал, что сильнейшими сигналами были наличие послеоперационной химио- или радиотерапии, число вовлечённых лимфатических узлов, возраст, индекс массы тела (ИМТ) и предоперационный уровень нейтрофилов, типа белых кровяных телец. Пациенты с более выраженным поражением лимфоузлов и признаками системного воспаления обычно имели более высокий прогнозируемый риск. Авторы подчёркивают, что высокий вклад химио- и радиотерапии не означает, что эти методы вызывают метастазирование; это маркёры того, что врачи изначально оценили заболевание как более агрессивное, и такие пациенты изначально имели более высокий риск.

Как это может помочь пациентам на практике
Поскольку модель использует информацию, которую большинство онкоцентров уже фиксирует, её, после дальнейшей валидации, можно встроить в программное обеспечение больниц. Для нового пациента, только перенёсшего операцию на лёгком, система могла бы автоматически собрать его данные и выдать персонализированную вероятность отдалённых метастаз вместе с простым объяснением факторов, повышающих или снижающих риск. Врачи затем могли бы использовать это, чтобы решить, кому требуется более частая инструментальная диспансеризация, дополнительное консультирование или включение в клинические исследования, а кого можно наблюдать менее интенсивно. Исследование выполнено в одном учреждении, поэтому инструмент нужно проверять и адаптировать в других регионах и системах здравоохранения. Тем не менее, это даёт многообещающую схему сочетания рутинных клинических данных с прозрачным машинным обучением для улучшения долгосрочной помощи пациентам с раком лёгкого.
Цитирование: Guo, X., Xu, T., Luo, Y. et al. Comparative study on predicting postoperative distant metastasis of lung cancer based on machine learning models. Sci Rep 16, 6468 (2026). https://doi.org/10.1038/s41598-026-37113-w
Ключевые слова: рак лёгкого, отдалённые метастазы, машинное обучение, прогнозирование риска, послеоперационное наблюдение