Clear Sky Science · ru

Интерпретируемая модель на основе машинного обучения в виде решающего дерева для прогнозирования обструктивных заболеваний дыхательных путей в большой некурящей популяции при диспансеризации

· Назад к списку

Почему скрытые проблемы с легкими важны

Многие считают, что серьезные заболевания легких в основном угрожают давним курильщикам. Однако удивительно много некурящих людей незаметно развивают дыхательные проблемы, которые остаются незамеченными до тех пор, пока не становятся тяжелыми. В этом исследовании ставился практический вопрос: можно ли с помощью обычных данных диспансеризации — таких как возраст, артериальное давление и общие анализы крови — отобрать некурящих взрослых, чьи легкие уже могут испытывать затруднения, задолго до появления одышки? Авторы также хотели, чтобы предсказания были понятны врачам, а не представляли собой таинственную «черный ящик».

Поиск признаков в рутинных обследованиях

Команда проанализировала записи крупной программы диспансеризации на Тайване, в которой участвовали более полумиллиона взрослых. Из этой большой группы они сосредоточились на 81 055 человек, которые никогда не курили и у которых были полные данные по осмотрам, лабораторным тестам и тестам функции легких. Функция легких измерялась стандартным тестом выдоха, который сравнивает объем воздуха, который человек может выдохнуть за одну секунду, с его общим жизненным объемом. Когда это соотношение падает ниже определенного порога, это указывает на обструкцию дыхательных путей — характерную черту таких состояний, как астма и хроническая обструктивная болезнь легких (ХОБЛ).

Figure 1
Figure 1.

Обучение компьютеров распознавать легочный риск

Вместо того чтобы полагаться на один метод, исследователи объединили шесть известных подходов машинного обучения, часто используемых в медицинских прогнозах. Среди них были решающие деревья и несколько связанных техник, формирующих большие ансамбли деревьев для повышения точности. Каждый метод обучали отличать людей с нормальными результатами дыхательных тестов от тех, у кого выявлена обструкция дыхательных путей, используя 25 общих показателей — таких как возраст, рост, вес, артериальное давление, уровень образования и рутинные лабораторные измерения. Чтобы сохранить надежность результатов, команда многократно делила данные на обучающие и тестовые наборы, балансировала редкие положительные случаи с более частыми отрицательными и проверяла, насколько хорошо работает каждая модель.

Поиск самых информативных признаков

Все шесть моделей показали относительно хорошую работу и продемонстрировали схожие показатели при оценке способности отделять людей с обструкцией дыхательных путей от тех, у кого ее нет. Но главная цель заключалась в том, чтобы определить, какие признаки медицинского осмотра наиболее важны, а затем превратить эти знания в простые правила, которые врачи могли бы применять. Для этого исследователи ранжировали значимость каждого признака в каждой модели, а затем усреднили эти ранги. Возраст последовательно оказывался в числе ведущих признаков во всех методах. Показатели, связанные с конституцией тела — такие как рост и вес — также оказались значимыми, как и артериальное давление и несколько рутинных лабораторных тестов. Один из них, лактатдегидрогеназа (ЛДГ), является неспецифичным маркером тканевого стресса и показал полезную информацию о состоянии легких даже при учете других анализов крови.

От сложных моделей к простым правилам

После выделения сильнейших предикторов команда построила одно простое и легко читаемое решающее дерево, использующее только верхние 30 процентов признаков. Эта упрощенная модель работала почти так же хорошо, как модели, использующие все 25 переменных, но имела структуру, которую клиницисты могут визуально просмотреть. Дерево начинается с возраста на вершине, затем разветвляется по таким факторам, как рост, уровень ЛДГ, масса тела и уровень образования. Прослеживание по ветвям приводит к «листьям» — группам с более высокой или более низкой вероятностью обструкции дыхательных путей. Например, старшие взрослые старше определенного возраста или более молодые, но низкорослые люди с определенными лабораторными профилями образовывали группы, где обструктивные проблемы встречались чаще. Авторы подчеркивают, что некоторые из этих маркеров, особенно ЛДГ, не специфичны для легких и, вероятно, отражают общее состояние здоровья, а не прямое повреждение легочной ткани.

Figure 2
Figure 2.

Что это означает для повседневных обследований

Исследование показывает, что рутинные данные медицинских осмотров можно превратить в интерпретируемый набор правил, который выделяет некурящих, нуждающихся в более тщательной оценке легких, например в полном обследовании функции дыхания или направлении к специалисту. Модель не предназначена для замены тестов функции легких или постановки окончательного диагноза, а служит скорее интеллектуальным помощником при триаже, помогающим врачам замечать людей с повышенным риском, которых в противном случае могли бы упустить. Поскольку подход основан на распространенных измерениях и делает упор на понятные пошаговые решения, его можно адаптировать к реальным скрининговым условиям. Дальнейшие исследования потребуются, чтобы подтвердить эти результаты во времени и в более разнообразных популяциях, но данная работа демонстрирует перспективный пример того, как прозрачный искусственный интеллект может способствовать более раннему выявлению «молчащих» легочных проблем.

Цитирование: Chang, CY., Shen, HS., Kuo, YL. et al. Interpretable machine learning based decision tree model for predicting obstructive airway disease in a large non-smoking health screening population. Sci Rep 16, 12807 (2026). https://doi.org/10.1038/s41598-026-43633-2

Ключевые слова: обструктивное заболевание дыхательных путей, здоровье легких некурящих, интерпретируемое машинное обучение, скрининг с помощью решающего дерева, данные медицинского обследования