Clear Sky Science · ru
Прогнозирование выживаемости при различных раках с помощью моделей машинного обучения
Почему важно по‑новому предсказывать выживаемость при раке
Пациенты с раком и их семьи часто задают простой, но мучительный вопрос: «Сколько у меня осталось?» Врачи пытаются ответить, опираясь на опыт и прошлые данные, но для многих более редких типов рака похожих случаев слишком мало, чтобы давать точные прогнозы. Это исследование изучает, могут ли современные компьютерные программы безопасно «занимать опыт» у распространённых видов рака, чтобы помогать прогнозировать выживаемость при менее распространённых — что потенциально даст большему числу пациентов более ясные ожидания и лучше адаптированное лечение. 
Использование данных прошлых пациентов для помощи в будущем лечении
Исследователи работали с большим массивом реальных данных из онкологических регистров больниц Сан‑Паулу, Бразилия. Эти записи охватывают более миллиона пациентов, лечившихся в период с 2000 по 2019 год, и содержат такие сведения, как возраст, стадия опухоли, полученное лечение и факт выживания через три года после постановки диагноза. Фокус на трёхлетней отметке позволил команде сопоставлять виды рака с весьма разной типичной продолжительностью жизни, избегая при этом сильно несбалансированных данных, когда почти все либо выживают, либо умирают.
Обучение компьютеров распознавать шаблоны выживаемости
Чтобы превратить регистр в инструмент прогнозирования, авторы использовали два популярных метода машинного обучения: XGBoost и LightGBM. Эти методы не пытаются напрямую понять биологию; вместо этого они просеивают тысячи историй пациентов в поисках закономерностей, связывающих характеристики вроде стадии заболевания и времени лечения с последующей выживаемостью. Сначала команда построила «специализированные» модели, каждая обучалась только на одном типе рака, например молочной железы, лёгкого или желудка. Затем они проверяли, насколько хорошо эти модели предсказывают трёхлетнюю выживаемость для новых пациентов с тем же раком, используя стандартные метрики, которые уравновешивают корректное определение выживших и невыживших.
Может ли один рак помочь предсказать другой?
Суть исследования — смелый вопрос: может ли модель, обученная на одном типе рака, успешно предсказывать выживаемость при другом? Чтобы это проверить, исследователи сгруппировали виды рака двумя способами: самые распространённые (кожа, молочная железа, простата, колоректальный, лёгкие и шейка матки) и раки пищеварительной системы (ротовая полость, ротоглотка, пищевод, желудок, тонкая кишка, колоректальный и анус). На первом этапе они обучали отдельные модели для каждого рака и тестировали их на других, отбирая лишь пары, где прогнозы выживания и невырживания были в разумном балансе. На более поздних этапах они объединяли данные от отобранных раков в общие тренировочные наборы, создавая более общие модели, использующие закономерности между родственными опухолями. 
Где межраковое обучение помогает — и где нет
Для распространённых видов рака объединение данных по типам не превзошло лучшие специализированные модели. Например, единая модель, обученная на всех шести распространённых раках, предсказывала менее точно, чем модели, настроенные под каждый рак отдельно. Иная картина наблюдалась для некоторых опухолей пищеварительной системы. Когда данные по ракам ротовой полости, пищевода и желудка объединили, полученная модель несколько точнее предсказывала трёхлетнюю выживаемость при раке желудка по сравнению с моделью, обученной только на желудке, с уравновешенной точностью чуть выше 80 процентов. Однако статистические тесты показали, что это улучшение не было очевидно отличимо от случайного, то есть общая и специализированная модели фактически оказались вничью. Похожие «почти, но не совсем лучше» результаты наблюдались для раков ротовой полости, тонкой кишки и колоректального тракта, часто с компромиссами между корректным выявлением выживших и невыживших.
Что это значит для пациентов с редкими раками
Хотя межраковые модели редко превосходили лучшие специфичные для болезни модели, они часто были близки к ним — используя лишь информацию, «заимствованную» у других типов рака. Для редких опухолей, где отсутствуют большие качественные наборы данных, это обнадеживающий признак: в будущем врачи могут опираться на модели, обученные на более распространённых раках, чтобы давать осмысленные оценки выживаемости, когда построить специализированный инструмент невозможно. Авторы предупреждают, что эти методы ещё не готовы к рутинному клиническому применению и что их следует тестировать в других регионах и сочетать с более глубокими биологическими данными. Тем не менее работа указывает на будущее, в котором ни один пациент не останется без ориентиров просто потому, что его рак редок.
Цитирование: Cardoso, L.B., Egydio, J.E., Toporcov, T.N. et al. Cross-cancer survival prediction using machine learning models. Sci Rep 16, 9623 (2026). https://doi.org/10.1038/s41598-025-34133-w
Ключевые слова: прогноз выживаемости при раке, машинное обучение в онкологии, межраковое моделирование, редкие виды рака, клинические регистры