Clear Sky Science · it

SqueezeViT efficiente: un quadro leggero di vision transformer per la classificazione delle radiografie del torace

· Torna all'indice

Perché è importante leggere le radiografie del torace più velocemente

Le radiografie del torace sono uno dei modi più comuni in cui i medici cercano problemi ai polmoni e al cuore, dalla polmonite alla tubercolosi. In ospedali affollati o in piccole cliniche con risorse informatiche limitate, è difficile eseguire grandi strumenti di intelligenza artificiale che potrebbero aiutare i medici a interpretare rapidamente queste immagini. Questo studio presenta un nuovo modello di IA compatto, chiamato SqueezeViT, progettato per individuare le malattie toraciche nelle radiografie usando molta meno potenza di calcolo rispetto ai sistemi tipici, rendendolo più pratico per l'assistenza reale.

Un nuovo modo per ridurre i lettori intelligenti di immagini

Gli strumenti moderni di riconoscimento delle immagini spesso si basano su due idee. Le reti neurali convoluzionali sono efficaci nel cogliere dettagli fini in piccole regioni di un’immagine, mentre i transformer sono migliori nel vedere il quadro generale sull’intera scansione. I vision transformer standard, però, sono pesanti e lenti. Gli autori progettano SqueezeViT per mantenere la visione globale dei transformer ma «compressare» la quantità di informazioni da elaborare a ogni passo. Il loro obiettivo è preservare le parti dell’immagine importanti per la diagnosi riducendo al contempo il calcolo superfluo, così che il modello possa funzionare su hardware modesto.

Figure 1. L’IA compatta aiuta a classificare con precisione le radiografie del torace su dispositivi medicali a bassa potenza.
Figure 1. L’IA compatta aiuta a classificare con precisione le radiografie del torace su dispositivi medicali a bassa potenza.

Come il modello compatto osserva polmoni e cuore

SqueezeViT combina due componenti per gestire efficacemente le radiografie del torace. Il primo, chiamato Fire block, agisce come un filtro intelligente che comprime le informazioni provenienti dall’immagine in un insieme più piccolo di caratteristiche, poi le espande di nuovo per mettere in evidenza pattern come bordi e texture legate alla malattia. Il secondo, chiamato Translution Block, suddivide l’immagine in piccole patch e applica l’attenzione, permettendo al modello di mettere in relazione segnali provenienti da parti distanti dei polmoni o del cuore. Utilizzando patch leggermente più grandi rispetto a molti progetti precedenti, il modello riduce il lavoro che l’operazione di attention deve svolgere, pur catturando come le variazioni in una parte del torace si collegano ad altre.

Mettere il sistema alla prova

Per valutare le prestazioni di SqueezeViT nella pratica, i ricercatori lo testano su due grandi raccolte pubbliche di radiografie del torace: il dataset NIH ChestX-ray14 e il dataset CheXpert. Insieme includono centinaia di migliaia di immagini etichettate per una serie di condizioni, come cardiomegalia, edema, polmonite e noduli polmonari. Il team addestra SqueezeViT da zero e confronta la sua capacità di distinguere casi malati da casi sani con modelli di deep learning noti, comprese architetture importanti come ResNet e DenseNet così come opzioni più leggere come MobileNet, ShuffleNet, SqueezeNet e MobileViT. Si concentrano sull’area sotto la curva ROC, un punteggio che premia i modelli per classificare i casi anomali prima di quelli normali su differenti soglie decisionali.

Figure 2. Un’IA leggera comprime i dettagli dell’immagine per individuare passo dopo passo i problemi polmonari nelle radiografie del torace.
Figure 2. Un’IA leggera comprime i dettagli dell’immagine per individuare passo dopo passo i problemi polmonari nelle radiografie del torace.

Equilibrio tra velocità, dimensione e accuratezza

I risultati mostrano che SqueezeViT raggiunge un’accuratezza paragonabile, e in diversi compiti superiore, a modelli molto più grandi pur essendo significativamente più piccolo. Utilizza circa mezzo milione di parametri addestrabili, riducendo il conteggio dei parametri di oltre il 40% rispetto a MobileViT e di oltre il 90% rispetto ad alcuni dei più grandi modelli di riferimento. I suoi calcoli, l’uso di memoria e i ritardi di elaborazione sia su processori grafici sia su CPU standard sono tutti ridotti, permettendogli di analizzare le immagini in pochi millisecondi su hardware tipico. In scenari multi-patologia, SqueezeViT eguaglia o si avvicina ai migliori modelli pesanti per molte condizioni e supera nettamente altri design leggeri. Per decisioni semplici normale-versus-anomalo, offre nuovamente punteggi solidi e coerenti su entrambi i dataset.

Cosa significa questo per l’assistenza quotidiana

Per i lettori non tecnici, il messaggio chiave è che SqueezeViT dimostra la possibilità di costruire un assistente IA per le radiografie del torace che sia sia parsimonioso nelle risorse di calcolo sia accurato nel rilevamento delle malattie. Pur non sostituendo la necessità di radiologi o clinici, potrebbe aiutare a segnalare radiografie sospette più rapidamente in ospedali affollati ed estendere l’analisi avanzata delle immagini a cliniche con attrezzature limitate. Gli autori notano che le etichette del mondo reale possono essere rumorose e che alcune categorie di malattia restano sfidanti, ma suggeriscono che questo progetto compatto rappresenta un passo promettente verso strumenti di supporto affidabili e portatili per l’imaging toracico e potrebbe essere adattato in futuro ad altre modalità come TC o risonanza magnetica.

Citazione: Maurya, A., Lohia, A., Chirag et al. Efficient SqueezeViT: A lightweight vision transformer framework for chest X-ray image classification. Sci Rep 16, 16183 (2026). https://doi.org/10.1038/s41598-026-47918-4

Parole chiave: IA per radiografie toraciche, vision transformer, analisi di immagini mediche, deep learning leggero, rilevamento di malattie polmonari