Clear Sky Science · ru

Сравнительный анализ моделей на основе данных для прогнозирования выживаемости при раке молочной железы

2026-02-21 · Назад к списку

Почему это исследование важно для женского здоровья

Рак молочной железы ныне является наиболее часто диагностируемым видом рака у женщин в мире, и в странах с ограниченными медицинскими ресурсами он часто выявляется на поздних стадиях и лечится в сложных условиях. В этом исследовании рассматриваются женщины в Эфиопии и ставится вопрос на жизнь и смерть: может ли современная обработка данных, используя ту информацию, которую врачи уже собирают о пациентке, точнее предсказать, кто находится в наибольшей группе риска смерти от рака молочной железы? Более точные прогнозы могли бы помочь врачам приоритизировать ограниченные ресурсы лечения, организовать более частое наблюдение за наиболее уязвимыми пациентками и дать женщинам более ясное представление о прогнозе.

Женщины, больницы и повседневные медицинские записи

Исследователи проанализировали медицинские записи 1 164 женщин, лечившихся от рака молочной железы в период с 2019 по 2024 год в двух крупных эфиопских больницах. Для каждой пациентки фиксировали, как долго она прожила после диагноза и умерла ли она в период наблюдения или была жива на момент завершения сбора данных. Помимо этого исхода использовалась обычная клиническая и социальная информация, которую больницы регулярно заносят в карты: возраст, размер опухоли, стадия рака, наличие отдалённых метастазов или поражения лимфатических узлов, сопутствующие заболевания, семейное положение, привычки образа жизни, такие как курение или употребление каты, и кормление грудью. Все эти данные можно собрать без дорогостоящих тестов, что делает возможными практические инструменты прогнозирования в условиях с ограниченными ресурсами.

Старые и новые подходы к оценке шансов на выживание

Традиционно врачи и статистики используют методы выживаемости, такие как кривые Каплана–Майера и модель пропорциональных рисков Кокса, чтобы понять, как долго пациенты живут с заболеванием и какие факторы влияют на это время. Эти методы относительно просты для интерпретации, но испытывают трудности, когда многие факторы взаимодействуют сложным, нелинейным образом, как это часто бывает в реальной клинической практике онкологии. Авторы сравнили эти классические подходы с более гибкими моделями машинного обучения, включая случайные леса выживаемости и глубокие модели выживаемости, а также стандартные методы классификации, такие как опорные векторы, случайные леса, XGBoost и LightGBM. Все модели обучали на части данных и тестировали на невидимых случаях, а их эффективность оценивали с помощью показателей, отражающих и способность ранжировать пациентов по риску, и насколько хорошо предсказанные времена выживания соответствуют реальности.

Какие факторы сильнее всего влияют на выживаемость?

В масштабах всей выборки уже до применения сложных моделей прослеживались несколько закономерностей. У женщин с большими опухолями, большим числом поражённых лимфоузлов или уже имевшимися метастазами выживаемость была значительно хуже. Пациентки с диагностированной стадией IV особенно часто умирали в период наблюдения, тогда как женщины со стадией I имели гораздо лучшие исходы. Более старший возраст, особенно 45 лет и старше, а также наличие сопутствующих хронических заболеваний также ухудшали выживаемость. Привычки образа жизни, такие как курение, употребление алкоголя или ката, были связаны с более плохими исходами. Замужние женщины, как правило, жили дольше, чем незамужние, разведённые или вдовы, что созвучно данным из других стран о том, что социальная поддержка может улучшать выживаемость за счёт лучшего соблюдения лечения и посещения наблюдений.

Что добавили «умные» алгоритмы

При сравнении моделей случайные леса выживаемости — метод, который строит множество деревьев решений, ориентированных на задачу выживания, и объединяет их результаты — показали наибольшую точность в прогнозировании продолжительности жизни пациентов. Близкий по идее метод, случайные леса, использованные как классификатор, лучше всего разделял пациенток на группы более высокого и более низкого риска. Чтобы минимизировать проблему «чёрного ящика», авторы применили технику SHAP, чтобы увидеть, на какие факторы модели опираются сильнее всего. В самых сильных моделях на верхних позициях consistently оказались одни и те же признаки: возраст, размер опухоли, наличие метастазов, поражение лимфоузлов, общая стадия и наличие сопутствующих заболеваний. Социальные факторы, такие как семейное положение, и некоторые привычки также вносили вклад, но в меньшей степени. По сути, модели выявили и количественно оценили те ключевые сигналы риска, которые волнуют клиницистов, и дополнительно учли тонкие способы их сочетания.

Что это значит для пациенток и клиник

Авторы приходят к выводу, что для эфиопских женщин с раком молочной железы модели, ориентированные на прогноз времени до смерти — особенно случайные леса выживаемости — могут давать более точные и в то же время интерпретируемые оценки риска по сравнению с одними только традиционными методами. Поскольку эти модели используют информацию, уже собираемую в рутинной практике, их можно встроить в простые инструменты, которые будут отмечать пациенток с высоким риском, помогать врачам решать, кому нужно более срочное направление или более интенсивное лечение, и вести честные, но персонализированные беседы о прогнозе. Хотя работа имеет ограничения — отсутствовали генетические и визуализационные данные, а анализ опирается на ретроспективные записи — она показывает, что при аккуратном применении машинное обучение может превратить повседневные данные больниц в практическую поддержку онкологической помощи в условиях с ограниченными ресурсами.

Цитирование: Takele, K., Chen, DG. A comparative analysis of data-driven models for breast cancer survival prediction. Sci Rep 16, 10114 (2026). https://doi.org/10.1038/s41598-026-40565-9

Ключевые слова: выживаемость при раке молочной железы, машинное обучение, случайный лес выживаемости, Эфиопия, клинические факторы риска