Clear Sky Science · fr

Conception d’un algorithme explicable basé sur XGBoost et un algorithme génétique pour prédire les besoins d’hospitalisation des patients COVID-19

· Retour à l’index

Pourquoi cela compte pour les soins quotidiens

Pendant la pandémie de COVID-19, les médecins ont souvent dû décider très rapidement qui avait besoin d’un lit d’hôpital et qui pouvait raisonnablement guérir à domicile. Cet article décrit un outil informatique conçu pour aider cette prise de décision. Il cherche à combiner deux qualités importantes : une forte précision pour repérer les patients à risque et des explications claires et simples que les cliniciens peuvent effectivement comprendre et utiliser.

Transformer les dossiers patients en signaux d’alerte précoces

Les chercheurs ont analysé les dossiers médicaux de 1 278 adultes atteints de COVID-19 vus dans un hôpital unique en Iran entre avril 2020 et mars 2021. Pour chaque personne, ils ont recueilli 27 éléments d’information, notamment l’âge, le taux d’oxygène, des analyses sanguines comme la protéine C‑réactive et le D‑dimère, des symptômes tels que la fièvre ou l’essoufflement, et des pathologies préexistantes comme le diabète ou l’hypertension. Seuls les dossiers avec une preuve biologique ou scannographique solide de COVID-19 et des données raisonnablement complètes ont été conservés. L’équipe a soigneusement nettoyé le jeu de données, imputé certaines valeurs manquantes par des méthodes statistiques, supprimé les erreurs évidentes, puis séparé les données en ensembles distincts pour l’entraînement et le test des modèles.

Figure 1
Figure 1.

Construire un moteur de prédiction puissant

Au cœur du système se trouve une méthode d’apprentissage automatique appelée XGBoost, très performante pour détecter des motifs dans des données complexes. L’outil apprend, à partir des patients antérieurs, quelles combinaisons de mesures signalent une probabilité d’hospitalisation. Testé 100 fois sur des données nouvelles, il a correctement distingué les patients à risque élevé des patients à risque plus faible avec une aire sous la courbe de 0,85, ce qui indique une forte capacité à classer qui est plus susceptible d’être admis. Il a repéré environ trois patients sur quatre qui avaient réellement besoin d’hospitalisation et a correctement rassuré environ neuf personnes sur dix qui n’en avaient pas besoin. Comparé à des approches plus traditionnelles — telles que la régression logistique, les forêts aléatoires, un réseau neuronal simple et une autre méthode arborescente appelée LightGBM — XGBoost a offert le meilleur compromis entre précision et fiabilité.

Du « boîte noire » à des règles claires pour les médecins

Les modèles purement statistiques peuvent sembler être une boîte noire : ils fournissent un score de risque mais pas une raison lisible par un humain. Pour ouvrir cette boîte, l’équipe a ajouté une seconde couche qui transforme le comportement du modèle en règles courtes et faciles à lire du type « SI ces conditions sont présentes, ALORS l’hospitalisation est probable. » Ils ont d’abord entraîné un ensemble de petits arbres de décision qui n’utilisent que quelques conditions à la fois, puis ont traité chaque chemin à travers ces arbres comme une règle candidate. Un algorithme génétique — méthode d’optimisation inspirée de l’évolution — a servi à élaguer et affiner ces règles, ne conservant que celles qui étaient à la fois précises et suffisamment applicables à un nombre utile de patients. Enfin, dix médecins de spécialités concernées ont évalué les règles, ne gardant que celles qui étaient médicalement sensées et claires. Ce processus a abouti à 40 règles finales : 20 orientant vers l’hospitalisation et 20 vers la prise en charge ambulatoire sûre.

Figure 2
Figure 2.

Ce que le modèle a appris sur le risque

Lorsque les chercheurs ont examiné les mesures les plus influentes, un petit groupe est ressorti. Une faible saturation en oxygène, une CRP élevée, un âge avancé, un D‑dimère augmenté, une ferritine élevée et un faible pourcentage de lymphocytes ont eu le plus d’impact sur les prédictions — ce qui correspond à l’expérience de première ligne selon laquelle les niveaux d’oxygène et les signes d’inflammation ou de coagulation sont cruciaux. Des conditions comme le diabète, une atteinte pulmonaire significative au scanner et l’essoufflement ont également joué un rôle mais étaient un peu moins centrales. Des symptômes courants tels que la toux ou les douleurs musculaires ont peu contribué à la décision d’hospitaliser. L’équipe a aussi vérifié les performances selon le sexe, l’âge et la présence ou non de maladies chroniques majeures. Les différences étaient faibles et non statistiquement significatives, ce qui suggère que l’outil se comportait de manière relativement équitable entre ces groupes, du moins dans ce jeu de données.

Comment cela pourrait aider lors de futures épidémies

En pratique, le système fonctionnerait en deux étapes. D’abord, le modèle XGBoost calcule un risque d’hospitalisation à partir des informations de base du patient, des signes vitaux et des analyses sanguines de routine. Ensuite, l’outil recherche l’une des règles approuvées par les experts qui correspond à ce patient — par exemple une certaine combinaison de faible oxygénation, de marqueurs inflammatoires élevés et d’âge. Si une règle correspondante est trouvée et qu’elle concorde avec la prédiction du modèle, l’outil présente cette règle au clinicien comme le raisonnement derrière la décision suggérée. Les auteurs soutiennent que ce dispositif en deux parties — prédiction précise plus règles simples et validées — pourrait rendre l’intelligence artificielle plus acceptable en milieu clinique. Parce que le processus de génération de règles est modulaire, des systèmes similaires pourraient être réentraînés rapidement pour de nouvelles maladies infectieuses en utilisant des données locales, aidant les hôpitaux à trier les patients et à gérer les ressources rares lors de futures crises sanitaires.

Citation: Abkar, A., Mehrabi, M., Golabpour, A. et al. Designing an explainable algorithm based on XGBoost and genetic algorithm for predicting hospitalization needs of COVID-19 patients. Sci Rep 16, 10210 (2026). https://doi.org/10.1038/s41598-026-40120-6

Mots-clés: Triage COVID-19, prédiction d’hospitalisation, IA explicable, soutien à la décision clinique, apprentissage automatique en santé