Clear Sky Science · ru
Важность сбалансированных наборов данных с отбором признаков и ансамблевыми методами при классификации сердечных заболеваний с использованием различных методов машинного обучения: сравнительный анализ
Почему это важно для повседневного здоровья сердца
Сердечные заболевания остаются ведущей причиной смерти в мире, однако большинство людей, проходящих опросы о здоровье или посещающих клиники, не видят, как их данные превращаются в ранние предупреждения. В этом исследовании поставлен простой, но важный вопрос: если мы очистим и сбалансируем большие медицинские наборы данных, внимательно подберём наиболее показательные факторы риска и затем выберем подходящий тип компьютерной модели, сможем ли мы заметно лучше выявлять людей с повышенным риском сердечных проблем?

Преобразование неструктурированных медицинских данных в пригодный для анализа вид
Исследователи работали с большим публичным набором данных из американской системы Behavioral Risk Factor Surveillance System, который содержит самоотчётную информацию тысяч взрослых о их здоровье и привычках. Каждый человек описывается 17 повседневными признаками, такими как возраст, статус курения и употребления алкоголя, длительность сна, физическая активность, наличие диабета, заболеваний почек и общая самооценка здоровья, а также информацией о наличии сердечных заболеваний. Как и в большинстве реальных медицинских записей, данные были «грязными»: встречались пропуски, явные выбросы, и людей с диагнозом сердечного заболевания было значительно меньше, чем без него. Команда сначала очистила данные, заполнила пропуски, убрала крайние выбросы и затем разделила записи на отдельные группы для обучения и тестирования моделей.
Решение проблемы редких случаев
Одной из основных проблем был дисбаланс: людей без сердечных заболеваний было гораздо больше, чем с сердечными заболеваниями. В таких ситуациях модель может казаться точной, просто чаще предсказывая «нет заболевания», при этом пропуская многие истинные случаи. Чтобы это компенсировать, авторы использовали приём, называемый оверсемплингом, который создаёт реалистичные синтетические примеры редких случаев «сердечное заболевание» так, чтобы тренировочные данные содержали примерно равное число положительных и отрицательных исходов. Этот шаг по балансировке улучшил способность нескольких моделей обнаруживать людей с сердечными заболеваниями, но сам по себе он не сделал предсказания достаточно чёткими и дифференцированными.

Выбор наиболее информативных факторов риска
Далее исследование выясняло, какие элементы информации о человеке наиболее важны для предсказания. Авторы протестировали три семейства статистических методов, которые оценивают каждый признак по силе связи с сердечными заболеваниями. Их оценивали как по отдельности, так и в восьми разных объединениях и пересечениях, по сути задавая вопросы: «Что если оставить всё, что отмечает хотя бы один метод?» и «Что если оставить только те признаки, на которых согласны все методы?» Возрастные категории, самооценка общего состояния здоровья, затруднения при ходьбе, история инсульта, диабет, болезни почек, индекс массы тела и некоторые маркёры образа жизни устойчиво выделялись как наиболее информативные сигналы во всех методах.
Сопоставление методов машинного обучения
Со сбалансированными данными и тщательно отобранными признаками команда сравнила семь популярных подходов машинного обучения: логистическую регрессию, деревья решений, случайные леса, наивный байес, метод опорных векторов, искусственные нейронные сети и k-ближайших соседей. Оценивали их с помощью распространённых метрик: общая точность, доля корректных положительных предсказаний (precision), доля обнаруженных истинных случаев сердечных заболеваний (recall) и способность модели разделять больных и здоровых на всех порогах (ROC–AUC). Случайные леса и деревья решений стабильно оказались в лидерах после применения отбора признаков, особенно когда в процессе отбора использовались методы на основе ANOVA. В наилучшем варианте случайный лес достиг примерно 92% точности, 93% recall и AUC 0.92, явно опережая конкурентов.
Когда объединение моделей помогает — и когда нет
Авторы также исследовали «бэггинг», способ создания множества немного различных версий модели с последующим объединением их голосов. Этот приём ансамблирования часто применяется для снижения нестабильности моделей, таких как деревья решений. В этом исследовании бэггинг давал небольшие приросты для некоторых моделей с высокой дисперсией, но не приводил к драматическому улучшению их способности различать случаи сердечных заболеваний и здоровых пациентов, особенно если применялся без тщательного отбора признаков, описанного выше. Более того, опора только на бэггинг иногда приводила к пропуску важных положительных случаев, что было бы неприемлемо в медицинском контексте.
Что это означает для пациентов и врачей
Для непрофессионала главный вывод таков: то, как мы подготавливаем и формируем данные, может иметь большее значение, чем то, насколько сложна модель предсказания. Простое применение сложного алгоритма к неравномерным, зашумлённым медицинским записям недостаточно. Эта работа показывает, что балансировка данных и внимательный выбор ограниченного набора значимых факторов риска — особенно тех, которые выделяют методы на основе ANOVA — позволяют относительно простым моделям, таким как случайные леса и деревья решений, делать гораздо более надёжные предсказания сердечных заболеваний. Хотя эти результаты ещё нужно подтвердить на других популяциях и в реальных клиниках, они указывают на практические подходы к созданию инструментов раннего предупреждения, которые в будущем могут помочь врачам раньше выявлять пациентов с риском и более эффективно нацеливать профилактику.
Цитирование: Ara, J., Bhuiyan, H., Roza, I.I. et al. Importance of balanced datasets with feature selection and ensemble methods on heart disease classification using distinctive machine learning techniques: a comparative analysis. Sci Rep 16, 11706 (2026). https://doi.org/10.1038/s41598-026-47691-4
Ключевые слова: предсказание сердечных заболеваний, машинное обучение, отбор признаков, балансировка медицинских данных, модели случайного леса