Clear Sky Science · ru
Моделирование протеогеномных данных на основе машинного обучения выявляет циркулирующие плазменные биомаркеры для раннего выявления рака легкого
Почему это исследование важно
Рак легкого уносит больше жизней во всем мире, чем любой другой вид рака, во многом потому, что обычно его обнаруживают слишком поздно. Нынешние скрининговые методы в основном ориентированы на заядлых курильщиков и опираются на визуализационные исследования, которые могут пропускать раннюю болезнь. В этом исследовании ставится простой, но мощный вопрос: может ли обычный образец крови, взятый за годы до появления симптомов, показать, кто тихо движется к развитию рака легкого? Комбинируя генетические данные с тысячами белков крови и современными методами машинного обучения, исследователи ищут ранние сигналы тревоги, которые однажды могли бы расширить скрининг и спасти жизни.
Поиск подсказок в генах и крови
Сначала команда исследовала ДНК сотен тысяч людей в крупных популяционных биобанках Великобритании и Финляндии. Они сравнили генетические коды людей, у которых развился рак легкого, с теми, у кого его не было, выявив участки ДНК, связанные с повышенным риском. Затем они спросили, связаны ли те же генетические изменения с различиями в уровнях конкретных белков, циркулирующих в крови. Белки — это рабочие молекулы организма, и изменения их уровней могут выявлять ранний биологический стресс задолго до того, как опухоль станет заметна на снимке. Соединяя генные факторы риска с уровнями белков в крови, исследователи начали картировать, как наследственная восприимчивость может тонко изменять внутреннюю химию организма на пути к раку легкого.

Отслеживание кровяных сигналов за годы до диагноза
Вторая, дополняющая часть исследования была сосредоточена непосредственно на белках крови как возможных ранних сигналах болезни. С помощью высокопроизводительной платформы ученые измерили почти 3 000 различных белков в образцах крови более чем 26 000 добровольцев из UK Biobank. Некоторые люди уже имели диагноз рака легкого на момент взятия крови, но многие другие заболели лишь годами позже. Исследователи сгруппировали этих «будущих пациентов» по времени постановки диагноза: в пределах 0–4 лет, 5–9 лет или в любой момент в пределах 0–9 лет после сдачи крови. Затем они сравнили уровни белков в каждой группе с участниками без рака, чтобы найти белки, которые последовательно отличались задолго до диагноза.
Обучение компьютеров распознавать профили высокого риска
Поскольку ни один белок сам по себе не рассказывал всю историю, команда обратилась к машинному обучению, чтобы интерпретировать сложные шаблоны сразу по сотням маркеров. Они тренировала несколько типов алгоритмов — включая случайные леса и нейронные сети — чтобы отличать людей, у которых впоследствии развился рак легкого, от тех, кто оставался свободным от болезни, используя только их профили белков в крови. Модели показали хорошие результаты, достигая показателей точности (AUC) примерно 0,8–0,88, даже при использовании образцов, взятых за девять лет до диагноза. Примечательно, что модели, построенные на данных о белках, явно превосходили те, что опираются только на стандартные факторы риска, такие как возраст, пол и история курения, показывая, что сигналы в крови дают значимую информацию сверх того, что уже известно врачам.

Что показывают ключевые белки
В разных временных окнах исследователи неоднократно выявляли основную группу из 22 белков, уровни которых были тесно связаны с будущим развитием рака легкого. Четырнадцать из них уже ранее связывали с раком легкого, а восемь выявились как новые кандидаты. Многие из этих белков участвуют в иммунных реакциях, воспалении и процессах рубцевания в легочной ткани, что позволяет предположить, что ранний рак легкого может перестраивать систему защиты организма задолго до того, как он станет видим на изображениях. У людей, у которых кровь была взята за 5–9 лет до диагноза, более высокие уровни нескольких белков также связывались с худшим выживанием после появления рака, что наводит на мысль, что те же ранние маркеры могут содержать информацию о том, насколько агрессивной может стать будущая опухоль.
Что это значит для пациентов
Эта работа пока не создает готового к использованию анализа крови и не доказывает, что эти белки вызывают рак легкого. Вместо этого она предлагает подробную карту того, как гены и химия крови меняются в преддверии диагноза, и выделяет конкретные циркулирующие белки, которые заслуживают более глубокого изучения как ранние маркеры. Если будущие исследования подтвердят и уточнят эти результаты, простой забор крови однажды может помочь выявлять людей с высоким риском — включая некоторых пожизненных некурильщиков — за годы до появления симптомов, направляя на более своевременные сканирования, более пристальное наблюдение и в конечном счете спасая больше жизней.
Цитирование: Johnson, M.A., Nieves-Rodriguez, S., Hou, L. et al. Machine learning-based proteogenomic data modeling identifies circulating plasma biomarkers for early detection of lung cancer. Commun Med 6, 253 (2026). https://doi.org/10.1038/s43856-026-01500-1
Ключевые слова: рак легкого, биомаркеры в крови, протеомика, генетический риск, раннее выявление