Clear Sky Science · fr

Importance des jeux de données équilibrés avec sélection de variables et méthodes d’ensemble pour la classification des maladies cardiaques à l’aide de techniques d’apprentissage automatique distinctes : une analyse comparative

· Retour à l’index

Pourquoi cela compte pour le quotidien des cœurs

Les maladies cardiovasculaires restent la première cause de mortalité dans le monde, et pourtant la plupart des personnes qui remplissent des enquêtes de santé ou consultent des cliniques ne voient jamais leurs réponses transformées en signaux d’alerte précoces. Cette étude pose une question simple mais puissante : si nous nettoyons et rééquilibrons de larges jeux de données de santé, choisissons soigneusement les facteurs de risque les plus parlants, puis sélectionnons le bon type de modèle informatique, peut‑on faire un travail nettement meilleur pour repérer qui est susceptible de développer des problèmes cardiaques ?

Figure 1
Figure 1.

Transformer des données de santé désordonnées en quelque chose d’utile

Les chercheurs ont travaillé sur un large jeu de données public issu du Behavioral Risk Factor Surveillance System des États‑Unis, qui contient des informations auto‑rapportées de milliers d’adultes sur leur santé et leurs habitudes. Chaque personne est décrite par 17 caractéristiques courantes telles que l’âge, le statut tabagique et alcool, le temps de sommeil, l’activité physique, le diabète, la maladie rénale et l’auto‑évaluation de l’état de santé, ainsi que l’existence ou non d’une maladie cardiaque. Comme dans la plupart des dossiers médicaux réels, les données étaient désordonnées : certaines valeurs manquaient, certains individus étaient des valeurs aberrantes évidentes, et beaucoup moins de personnes déclaraient une maladie cardiaque que l’inverse. L’équipe a d’abord nettoyé les données, comblé les valeurs manquantes, retiré les outliers extrêmes, puis séparé les enregistrements en groupes distincts pour l’entraînement et le test des modèles informatiques.

Corriger le problème des cas rares

Un obstacle majeur était l’imbalancement : les personnes sans maladie cardiaque étaient bien plus nombreuses que celles qui en souffraient. Dans de telles situations, un modèle peut sembler précis simplement en prédisant « pas de maladie » la plupart du temps, tout en manquant de nombreux cas réels. Pour contrer cela, les auteurs ont utilisé une technique appelée sur‑échantillonnage, qui crée des exemples synthétiques réalistes des cas plus rares « maladie cardiaque » afin que les données d’entraînement contiennent un nombre à peu près égal de résultats positifs et négatifs. Cette étape d’équilibrage a amélioré la capacité de plusieurs modèles à détecter les personnes atteintes de maladie cardiaque, mais à elle seule elle n’a pas rendu les prédictions suffisamment nettes ou discriminantes.

Figure 2
Figure 2.

Sélection des facteurs de risque les plus parlants

L’étude s’est ensuite demandée quelles informations à propos d’une personne importent le plus pour la prédiction. Les auteurs ont testé trois familles d’outils statistiques qui attribuent un score à chaque caractéristique selon la force de son lien avec la maladie cardiaque. Ils les ont évaluées individuellement et dans huit combinaisons différentes d’unions et d’intersections, se demandant essentiellement « Et si nous gardions tout ce qu’au moins une méthode signale ? » versus « Et si nous ne gardions que les caractéristiques sur lesquelles toutes les méthodes s’accordent ? ». Les tranches d’âge, l’auto‑évaluation de l’état de santé général, les difficultés à marcher, les antécédents d’AVC, le diabète, les maladies rénales, l’indice de masse corporelle et certains marqueurs de mode de vie sont apparus de manière répétée comme les signaux les plus informatifs à travers les méthodes.

Confronter les modèles d’apprentissage automatique

Avec des données équilibrées et des caractéristiques soigneusement choisies, l’équipe a comparé sept approches populaires d’apprentissage automatique : régression logistique, arbres de décision, forêts aléatoires, naïf Bayes, machines à vecteurs de support, réseaux de neurones artificiels et k plus proches voisins. Ils les ont évalués avec des mesures courantes : la précision globale, la fréquence à laquelle les prédictions positives étaient correctes (précision), le nombre de cas réels de maladie cardiaque détectés (rappel), et la capacité des modèles à séparer malades et non malades sur tous les seuils (le score ROC–AUC). Les forêts aléatoires et les arbres de décision sont revenus systématiquement en tête une fois la sélection de caractéristiques appliquée, surtout lorsque des méthodes basées sur l’ANOVA faisaient partie du processus de sélection. Dans le meilleur scénario, une forêt aléatoire atteignait environ 92 % de précision, 93 % de rappel et une AUC de 0,92, nettement devant ses concurrents.

Quand combiner des modèles aide — et quand cela n’aide pas

Les auteurs ont également exploré le « bagging », un moyen de créer de nombreuses versions légèrement différentes d’un modèle puis de combiner leurs votes. Cette astuce d’ensemble est souvent utilisée pour réduire l’instabilité de modèles comme les arbres de décision. Dans cette étude, le bagging a apporté de petits gains pour quelques modèles à forte variance mais n’a pas amélioré de manière spectaculaire leur capacité à distinguer maladie cardiaque et personnes saines, surtout lorsqu’il était utilisé sans la sélection de caractéristiques soignée décrite plus haut. En fait, s’appuyer uniquement sur le bagging conduisait parfois à laisser passer d’importants cas positifs non détectés, ce qui serait inacceptable en contexte médical.

Ce que cela signifie pour les patients et les médecins

Pour un non‑spécialiste, le message clé est que la manière dont nous préparons et structurons les données peut compter davantage que la sophistication du modèle de prédiction. Lancer un algorithme complexe sur des dossiers de santé déséquilibrés et bruyants ne suffit pas. Ce travail montre que l’équilibrage des données et la sélection rigoureuse d’un ensemble ciblé de facteurs de risque significatifs — en particulier ceux mis en évidence par des méthodes basées sur l’ANOVA — permettent à des modèles relativement simples comme les forêts aléatoires et les arbres de décision de produire des prédictions de maladie cardiaque beaucoup plus fiables. Si ces résultats doivent encore être confirmés sur d’autres populations et en milieu clinique réel, ils indiquent des recettes pratiques pour construire des outils d’alerte précoce qui pourraient un jour aider les médecins à repérer plus tôt les patients à risque et à mieux adapter les efforts de prévention.

Citation: Ara, J., Bhuiyan, H., Roza, I.I. et al. Importance of balanced datasets with feature selection and ensemble methods on heart disease classification using distinctive machine learning techniques: a comparative analysis. Sci Rep 16, 11706 (2026). https://doi.org/10.1038/s41598-026-47691-4

Mots-clés: prévision des maladies cardiaques, apprentissage automatique, sélection de caractéristiques, équilibrage des données de santé, modèles de forêt aléatoire