Clear Sky Science · ru
Проектирование объяснимого алгоритма на основе XGBoost и генетического алгоритма для прогнозирования потребности в госпитализации пациентов с COVID-19
Почему это важно для повседневной помощи
Во время пандемии COVID-19 врачам часто приходилось быстро решать, кому необходима койка в стационаре, а кто может безопасно лечиться дома. В этой работе описывается компьютерный инструмент, призванный помочь в таком решении. Он стремится объединить два важных качества: высокую точность в выявлении пациентов с риском и понятные, простые объяснения, которым врачи могут доверять и которыми они смогут воспользоваться.
Преобразование истории болезни в ранние предупреждения
Исследователи проанализировали медицинские записи 1 278 взрослых пациентов с COVID-19, обследованных в одном госпитале Ирана в период с апреля 2020 по март 2021 года. Для каждого человека они собрали 27 показателей, включая возраст, сатурацию кислорода, лабораторные тесты, такие как C-реактивный белок и D-димер, симптомы — лихорадку или одышку — и сопутствующие заболевания, например сахарный диабет или гипертонию. В работу попали только записи с достоверными лабораторными или сканирующими данными о COVID-19 и относительно полными данными. Команда тщательно очистила набор данных, заполнила некоторые пропуски статистическими методами, устранила очевидные ошибки и затем разделила данные на отдельные группы для обучения и тестирования моделей.

Создание мощного предиктивного движка
В основе системы лежит метод машинного обучения XGBoost, хорошо умеющий находить закономерности в сложных данных. Инструмент учится на предыдущих пациентах, какие сочетания показателей обычно сигнализируют о необходимости госпитализации. При проверке на новых данных в 100 запусках модель корректно разделяла пациентов с более высоким и более низким риском с площадью под кривой 0,85, что указывает на хорошую способность ранжировать вероятность госпитализации. Она выявляла примерно три из четырёх пациентов, которые действительно нуждались в госпитализации, и правильно уверяла около девяти из десяти людей, которым госпитализация не требовалась. По сравнению с более традиционными подходами — логистической регрессией, случайными лесами, простой нейронной сетью и другим древовидным методом LightGBM — XGBoost показал лучшее сочетание точности и надёжности.
От «чёрного ящика» к понятным правилам для врачей
Чисто статистические модели могут казаться «чёрным ящиком»: они выдают оценку риска, но не дают понятного человеческого объяснения. Чтобы «открыть» этот ящик, команда добавила второй уровень, который превращает поведение модели в короткие, легко читаемые правила вида «ЕСЛИ присутствуют эти условия, ТО вероятна госпитализация». Сначала обучали набор небольших решающих деревьев, использующих лишь несколько условий одновременно, затем трактовали каждый путь через эти деревья как кандидатное правило. Генетический алгоритм — метод оптимизации, вдохновлённый эволюцией — использовался для обрезки и уточнения этих правил, оставляя только те, которые были одновременно точными и применимыми к достаточному числу пациентов, чтобы быть полезными. В конце десять врачей из соответствующих специальностей оценивали правила, сохранив только те, которые были медицински осмысленными и понятными. В результате получилось 40 итоговых правил: 20 указывают на необходимость госпитализации и 20 — на безопасное амбулаторное наблюдение.

Что модель «узнала» о риске
При анализе важности показателей выделилась небольшая группа факторов. Низкая сатурация кислорода, высокий уровень C-реактивного белка, старший возраст, повышенный D-димер, высокий ферритин и низкий процент лимфоцитов оказывали наибольшее влияние на прогнозы — что совпадает с клиническим опытом, где уровни кислорода и признаки воспаления или свертывания играют ключевую роль. Такие состояния, как диабет, значительное поражение лёгких на КТ и одышка, тоже влияли на решение, но были менее центральными. Обычные симптомы, такие как кашель или мышечные боли, вносили небольшой вклад в решение о потребности в койке. Команда также проверила работу модели по группам — мужчины и женщины, молодые и пожилые пациенты, с наличием или без крупных хронических заболеваний. Различия оказались небольшими и статистически незначимыми, что указывает на относительно равномерное поведение инструмента в этих группах, по крайней мере в данном наборе данных.
Как это может помочь при будущих вспышках
На практике система работала бы в два этапа. Сначала модель XGBoost рассчитывает риск госпитализации на основе базовой информации о пациенте, жизненных показателей и рутинных анализов крови. Затем инструмент ищет одно из экспертно одобренных правил, которое соответствует этому пациенту — например определённое сочетание низкой сатурации, высоких маркеров воспаления и возраста. Если найдено совпадающее правило, подтверждающее предсказание модели, система показывает это правило клиницисту как обоснование предлагаемого решения. Авторы утверждают, что такое двухкомпонентное сочетание — точное прогнозирование плюс простые, верифицированные правила — может повысить приемлемость искусственного интеллекта в реальных клиниках. Поскольку процесс генерации правил модульный, аналогичные системы можно быстро переобучать для новых инфекционных заболеваний на основе локально собранных данных, помогая госпиталям эффективно сортировать пациентов и управлять ограниченными ресурсами в будущих кризисах здравоохранения.
Цитирование: Abkar, A., Mehrabi, M., Golabpour, A. et al. Designing an explainable algorithm based on XGBoost and genetic algorithm for predicting hospitalization needs of COVID-19 patients. Sci Rep 16, 10210 (2026). https://doi.org/10.1038/s41598-026-40120-6
Ключевые слова: триаж при COVID-19, прогноз госпитализации, объяснимая ИИ, поддержка клинических решений, машинное обучение в здравоохранении