Clear Sky Science · fr

Regroupement d’attention par classe et parcimonie des tokens : transformers visuels pour l’interprétation des radiographies thoraciques

· Retour à l’index

Des radiographies plus intelligentes pour une maladie pulmonaire mondiale

La tuberculose reste l’une des maladies infectieuses les plus mortelles au monde, et la radiographie thoracique est souvent le premier et parfois le seul examen d’imagerie disponible dans les cliniques bondées, en particulier dans les pays à revenu faible ou intermédiaire. Pourtant, l’interprétation de ces clichés est difficile et chronophage, même pour les experts. Cette étude présente un système d’intelligence artificielle conçu non seulement pour repérer les signes de tuberculose sur les radiographies thoraciques avec une très grande précision, mais aussi pour montrer aux médecins quelles zones des poumons ont influencé sa décision, dans le but de favoriser la confiance et d’aider à des diagnostics plus rapides et plus cohérents.

Pourquoi l’interprétation des images thoraciques est si difficile

Les radiographies thoraciques sont peu coûteuses, rapides et largement disponibles, ce qui en fait un outil attrayant pour le dépistage de masse. Le problème est que la tuberculose peut se manifester de manière subtile et être facilement manquée, notamment lorsque les images sont bruitées, sous‑ ou surexposées, ou prises avec du matériel ancien. Les lecteurs humains peuvent être en désaccord entre eux, et les cliniques surchargées peuvent submerger les radiologues. Les programmes informatiques traditionnels tentaient de résoudre cela en mesurant des caractéristiques conçues manuellement dans les images puis en les alimentant dans des modèles d’apprentissage automatique classiques, mais ces premiers systèmes peinaient lorsque les clichés provenaient de nouveaux hôpitaux ou présentaient des réglages techniques différents.

Des réseaux neuronaux aux vision transformers axés sur l’attention

L’apprentissage profond, en particulier les réseaux de neurones convolutionnels, a amélioré les choses en apprenant directement des motifs à partir des pixels, obtenant de bons résultats sur les jeux de données de tuberculose. Toutefois, ces réseaux se concentrent principalement sur des voisinages locaux dans l’image et peuvent manquer des structures plus étendues couvrant les deux poumons. Des modèles plus récents, appelés vision transformers, considèrent une radiographie comme une grille de petits patchs et apprennent comment chaque patch se rapporte aux autres, capturant des structures à longue portée. Bien que puissants, les transformers fournis tels quels peuvent accorder de l’attention à des régions peu importantes et être difficiles à interpréter, soulevant des questions quant à l’alignement de leurs décisions avec le raisonnement clinique.

Figure 1
Figure 1.

Une chaîne d’IA adaptée aux examens pulmonaires

Les auteurs conçoivent un transformer visuel personnalisé pour pallier ces faiblesses sur les radiographies thoraciques. D’abord, chaque image est soigneusement prétraitée : elle est redimensionnée, normalisée et souvent soumise à une technique d’amélioration du contraste qui fait ressortir les lésions pulmonaires pâles sans les suraccentuer. Une étape convolutionnelle légère en tête de modèle extrait des détails fins tels que bords et textures, importants en imagerie médicale. Le cliché est ensuite découpé en petits patchs, chacun transformé en token que le transformer peut traiter.

Apprendre au modèle où regarder

Pour aider le système à conserver une référence anatomique, le modèle utilise un mécanisme d’encodage de position qui injecte l’information sur l’emplacement de chaque patch dans les poumons, au lieu de traiter toutes les positions comme interchangeables. Il introduit aussi des tokens de « classe » spéciaux, un par catégorie de maladie, qui apprennent à agréger les preuves les plus pertinentes de tous les patchs. Une stratégie de parcimonie encourage le réseau à s’appuyer sur un sous‑ensemble des tokens les plus informatifs, en éliminant les motifs d’arrière‑plan et le bruit. La recette d’entraînement inclut des techniques comme l’abandon aléatoire de tokens, un ordonnancement soigneux du taux d’apprentissage et le calcul en précision mixte, choisies pour stabiliser l’apprentissage sur des données médicales limitées et éviter le surapprentissage sur des particularités des images d’entraînement.

Figure 2
Figure 2.

Voir ce que l’IA voit

De manière cruciale, le système est conçu pour s’expliquer. Après avoir prédit « tuberculose » ou « normal », le modèle génère des cartes de chaleur à l’aide d’une méthode connue sous le nom de Grad‑CAM. Ces superpositions colorées mettent en évidence les régions pulmonaires ayant le plus influencé la décision. Les auteurs conçoivent leur chaîne d’explicabilité pour montrer des exemples équilibrés de cas malades et sains, afin que les radiologues puissent vérifier que l’outil se concentre sur des structures cliniquement significatives plutôt que sur des artefacts non pertinents. Sur deux jeux de données publics de tuberculose, l’approche a atteint une précision de validation proche de 98 % et une aire sous la courbe témoignant d’une discrimination quasi parfaite, bien que les auteurs préviennent que leur séparation des données au niveau des images peut légèrement surestimer les performances en conditions réelles et qu’un test externe reste nécessaire.

Ce que cela signifie pour les soins futurs

Concrètement, ce travail démontre un système d’IA capable de repérer rapidement et avec précision les cas probables de tuberculose sur des radiographies thoraciques tout en traçant une « carte » visuelle claire de son raisonnement. Un tel outil pourrait aider à trier les patients dans des cliniques à ressources limitées, réduire les cas manqués et fournir un second avis cohérent pour les radiologues. En même temps, les auteurs soulignent que leur modèle n’a été testé que sur deux jeux de données publics, qu’il se concentre sur une seule étiquette de maladie et qu’il ne bénéficie pas d’une validation clinique complète. Les étapes futures incluent l’extension de la méthode à plusieurs affections pulmonaires, son adaptation aux examens 3D comme la TDM, la validation de ses explications avec des radiologues et des tests inter‑hospitaliers. Néanmoins, l’étude marque une avancée prometteuse vers une IA qui n’est pas seulement précise, mais aussi transparente et digne de confiance dans la lutte contre la tuberculose.

Citation: Lokunde, V., Sundar, K., Khokhar, A. et al. Class-attention pooling and token sparsity based vision transformers for chest X-ray interpretation. Sci Rep 16, 8035 (2026). https://doi.org/10.1038/s41598-026-37109-6

Mots-clés: tuberculose, radiographie thoracique, transformer visuel, IA explicable, imagerie médicale