Clear Sky Science · fr

Approches d'apprentissage automatique pour prédire le risque de tuberculose chez les contacts domiciliaires des patients index en Éthiopie centrale

· Retour à l’index

Pourquoi cela compte pour les familles

La tuberculose (TB) est souvent perçue comme une maladie contractée auprès d’inconnus dans les bus ou les marchés bondés, mais de nombreuses infections surviennent en réalité au domicile. Lorsqu’une personne d’un foyer a la TB, ses proches partagent l’air, les pièces et parfois le lit — pourtant, seuls quelques-uns développeront la maladie. Cette étude menée en Éthiopie centrale pose une question pratique d’intérêt mondial : les ordinateurs peuvent‑ils nous aider à identifier rapidement quels membres de la famille sont les plus susceptibles de tomber malades, de sorte que des tests et des médicaments rares soient utilisés là où ils sont le plus nécessaires ?

La vie à l’intérieur des foyers étudiés

Les chercheurs ont travaillé avec des équipes de santé qui visitent régulièrement les domiciles des personnes diagnostiquées pour une tuberculose pulmonaire contagieuse. Dans quatre districts ruraux et trois petites villes, ils ont recueilli des informations détaillées sur 387 patients « index » et 1 277 personnes vivant avec eux. De nombreux foyers étaient surpeuplés, une famille typique de quatre personnes étant entassée dans de petites maisons souvent composées d’une seule pièce et d’une seule fenêtre. La plupart des familles cuisinaient au bois ou au charbon, remplissant l’air de fumée. Beaucoup de membres du foyer étaient des enfants ou de jeunes adultes, et près de la moitié des patients comme des contacts avaient peu ou pas d’instruction formelle. Ce sont des environnements où la TB se propage facilement — mais même dans ces conditions, seulement 23 membres du foyer (environ 2 sur 100) ont finalement été diagnostiqués avec la TB.

Figure 1
Figure 1.

Transformer les visites à domicile en données

Chaque visite à domicile a généré un portrait riche du quotidien et de la santé. Pour chaque contact, l’équipe a enregistré l’âge, le sexe, le statut vaccinal, la toux, la fièvre, les sueurs nocturnes, la fatigue, la perte de poids, le temps passé avec le patient et d’autres maladies comme l’asthme ou le diabète. Ils ont aussi consigné des détails sur le foyer, tels que le nombre de pièces, le type de maison, le combustible de cuisson et la ventilation, ainsi que des caractéristiques du patient index, par exemple la durée de la maladie avant le début du traitement. Toutes ces informations ont été converties en variables numériques adaptées à l’analyse par ordinateur, avec des méthodes soigneuses pour gérer les réponses manquantes et éviter que des événements rares — comme le petit nombre de cas de TB dans l’ensemble de données — soient ignorés par les modèles.

Laisser les algorithmes chercher des motifs

L’équipe a ensuite entraîné plusieurs types de modèles d’apprentissage automatique — des programmes informatiques qui apprennent des motifs à partir des données — pour deviner quels contacts avaient la TB. Cela comprenait des outils statistiques familiers, comme la régression logistique, et des approches plus flexibles telles que les forêts aléatoires (Random Forest), les forêts aléatoires équilibrées (Balanced Random Forest), les K plus proches voisins, les réseaux de neurones artificiels et le gradient boosting. Parce que la grande majorité des contacts n’avait pas la TB, les auteurs se sont concentrés sur le « rappel » : la capacité d’un modèle à détecter autant de vrais cas de TB que possible, même si cela impliquait d’augmenter les faux positifs. En santé publique, manquer une personne malade est généralement plus dangereux que tester un contact en bonne santé de trop.

Figure 2
Figure 2.

Ce qui a entraîné le risque et quels modèles ont le mieux fonctionné

Les modèles d’ensemble qui combinent de nombreuses règles de décision simples, en particulier la Random Forest et sa variante « équilibrée », ont le mieux repéré les vrais cas de TB. Ils ont correctement identifié environ six personnes sur sept atteintes de la TB, tout en maintenant une précision globale raisonnable. L’étude a également utilisé une technique appelée SHAP pour regarder à l’intérieur de ces modèles « boîte noire » et voir quels facteurs comptaient le plus. Le fait d’être signalé comme cas présomptif lors du dépistage, de fournir un prélèvement d’expectoration, d’avoir une toux persistante ou grasse, de se sentir très fatigué et d’avoir une perte d’appétit poussaient fortement un contact vers la catégorie « probable TB ». Parmi les caractéristiques du foyer, une surface de logement réduite (signe de promiscuité) augmentait le risque. Certaines caractéristiques semblaient protectrices : être une femme, être plus grand et vivre avec un patient index ayant plus d’éducation étaient associés à un risque plus faible, reflétant possiblement des différences d’exposition, de nutrition et d’accès aux soins.

Ce que cela signifie pour la lutte contre la TB

Pour les programmes de santé confrontés à des ressources limitées, ces résultats offrent un moyen d’utiliser plus intelligemment les données recueillies lors des visites à domicile de routine. Plutôt que de traiter tous les contacts domiciliaires de la même manière, les cliniques pourraient exécuter discrètement de simples modèles informatiques pour signaler ceux qui présentent le plus de risque en vue d’un suivi renforcé, d’un dépistage plus rapide ou d’un traitement préventif. L’étude suggère que, même dans des contextes à faibles ressources, des outils d’apprentissage automatique bien conçus peuvent favoriser une détection plus précoce de la TB parmi les membres de la famille, réduire les cas manqués et rendre les investigations des contacts plus efficaces — à condition que les modèles soient testés et adaptés dans d’autres régions avant d’être intégrés aux stratégies nationales contre la TB.

Citation: Wolde, H.M., Kebede, W., Yewhalaw, D. et al. Machine learning approaches to predict the risk of tuberculosis among household contacts of index TB patients in Central Ethiopia. Sci Rep 16, 10457 (2026). https://doi.org/10.1038/s41598-026-41547-7

Mots-clés: tuberculose, contacts domiciliaires, apprentissage automatique, prévision du risque, Éthiopie