Clear Sky Science · fr

Efficient SqueezeViT : un cadre vision transformer léger pour la classification des radiographies thoraciques

2026-04-09 · Retour à l’index

Pourquoi accélérer la lecture des radiographies thoraciques est important

Les radiographies thoraciques sont l’un des moyens les plus courants pour les médecins de rechercher des problèmes pulmonaires et cardiaques, de la pneumonie à la tuberculose. Dans les hôpitaux surchargés ou les petites cliniques disposant d’ordinateurs limités, il est difficile d’exécuter de gros outils d’intelligence artificielle qui pourraient aider les médecins à lire ces images rapidement. Cette étude présente un nouveau modèle d’IA compact, appelé SqueezeViT, conçu pour détecter les maladies thoraciques sur radiographies tout en consommant beaucoup moins de puissance de calcul que les systèmes habituels, le rendant plus pratique pour les soins en conditions réelles.

Une nouvelle façon de réduire la taille des lecteurs d’images intelligents

Les outils modernes de reconnaissance d’images reposent souvent sur deux idées. Les réseaux convolutifs sont efficaces pour saisir des détails fins dans de petites régions d’une image, tandis que les transformers sont meilleurs pour appréhender la vue d’ensemble sur l’ensemble du scan. Les vision transformers standards, cependant, sont lourds et lents. Les auteurs conçoivent SqueezeViT pour conserver la large perspective des transformers tout en « compressant » la quantité d’informations à traiter à chaque étape. Leur objectif est de préserver les parties de l’image importantes pour le diagnostic tout en supprimant les calculs superflus afin que le modèle puisse fonctionner sur du matériel modeste.

Figure 1. L’IA compacte aide à classer précisément les radiographies thoraciques sur des appareils médicaux peu puissants.

Comment le modèle compact voit les poumons et le cœur

SqueezeViT combine deux blocs de construction pour traiter efficacement les radiographies thoraciques. Le premier, appelé bloc Fire, agit comme un filtre intelligent qui compresse l’information issue de l’image en un ensemble réduit de caractéristiques, puis l’expanse de nouveau pour mettre en évidence des motifs tels que les contours et textures associés aux maladies. Le second, appelé Translution Block, découpe l’image en petits patchs et applique un mécanisme d’attention, permettant au modèle de relier des signaux provenant de parties éloignées des poumons ou du cœur. En utilisant des patchs légèrement plus grands que de nombreux modèles antérieurs, le modèle réduit le travail requis par l’étape d’attention, tout en capturant comment une variation dans une zone de la poitrine se connecte à d’autres.

Mise à l’épreuve du système

Pour évaluer les performances de SqueezeViT en pratique, les chercheurs le testent sur deux grandes collections publiques de radiographies thoraciques : le jeu de données NIH ChestX-ray14 et le dataset CheXpert. Ensemble, ils comprennent des centaines de milliers d’images annotées pour diverses affections, comme la cardiomégalie, l’œdème, la pneumonie et les nodules pulmonaires. L’équipe entraîne SqueezeViT depuis zéro et compare sa capacité à distinguer les cas malades des cas sains à celle de modèles profonds bien connus, y compris des modèles lourds comme ResNet et DenseNet ainsi que des options plus légères comme MobileNet, ShuffleNet, SqueezeNet et MobileViT. Ils se concentrent sur l’aire sous la courbe ROC (AUROC), un score qui récompense les modèles capables de classer les cas anormaux avant les cas normaux à différents seuils de décision.

Figure 2. Une IA légère comprime les détails d’image pour repérer étape par étape les problèmes pulmonaires sur les radiographies thoraciques.

Équilibre entre vitesse, taille et précision

Les résultats montrent que SqueezeViT atteint une précision comparable, et pour plusieurs tâches supérieure, à celle de modèles beaucoup plus volumineux tout en étant significativement plus petit. Il utilise environ un demi-million de paramètres entraînables, réduisant le nombre de paramètres de plus de 40 % par rapport à MobileViT et de plus de 90 % par rapport à certains des plus grands modèles de référence. Ses calculs, son usage mémoire et ses délais de traitement sur GPU et CPU standard sont tous réduits, lui permettant d’analyser des images en seulement quelques millisecondes sur du matériel courant. Dans des contextes multi-pathologies, SqueezeViT égalise ou suit de près les meilleurs modèles lourds pour de nombreuses affections et dépasse nettement d’autres architectures légères. Pour des décisions simples normal-versus-anormal, il offre également des scores solides et cohérents sur les deux jeux de données.

Ce que cela signifie pour les soins quotidiens

Pour un lectorat non technique, le message principal est que SqueezeViT démontre qu’il est possible de concevoir un assistant IA pour les radiographies thoraciques à la fois économe en ressources informatiques et rigoureux dans la détection des maladies. S’il ne remplace pas les radiologues ou cliniciens, il peut aider à signaler plus rapidement les clichés suspects dans les hôpitaux surchargés et étendre l’analyse d’images avancée aux cabinets disposant d’équipements limités. Les auteurs notent que les annotations en conditions réelles peuvent être bruitées et que certaines catégories de maladies restent difficiles, mais ils suggèrent que ce design compact constitue une étape prometteuse vers des outils d’aide portables et fiables pour l’imagerie thoracique, et pourrait être adapté à l’avenir à d’autres examens tels que le scanner ou l’IRM.

Citation: Maurya, A., Lohia, A., Chirag et al. Efficient SqueezeViT: A lightweight vision transformer framework for chest X-ray image classification. Sci Rep 16, 16183 (2026). https://doi.org/10.1038/s41598-026-47918-4

Mots-clés: IA radiographie thoracique, vision transformer, analyse d’images médicales, apprentissage profond léger, détection des maladies pulmonaires