Clear Sky Science · sv

Effektiv SqueezeViT: Ett lättvikts ramverk av vision-transformer för klassificering av röntgenbröstkorgsbilder

2026-04-09 · Tillbaka till index

Varför snabbare avläsning av bröströntgen spelar roll

Bröströntgenundersökningar är ett av de vanligaste sätten för läkare att söka efter lungs- och hjärtproblem, från pneumoni till tuberkulos. På upptagna sjukhus eller små kliniker med begränsade datorresurser är det svårt att köra stora artificiella intelligensverktyg som skulle kunna hjälpa läkare läsa dessa bilder snabbare. Denna studie presenterar en ny kompakt AI-modell, kallad SqueezeViT, utformad för att upptäcka bröstsjukdomar på röntgenbilder samtidigt som den använder avsevärt mindre beräkningskraft än typiska system, vilket gör den mer praktisk för verklig vård.

En ny metod för att krympa smarta bildläsare

Moderna bildigenkänningsverktyg bygger ofta på två idéer. Konvolutionella neurala nätverk är bra på att fånga fina detaljer i små regioner av en bild, medan transformermodeller är bättre på att se den större helheten över hela undersökningen. Standard vision-transformers är dock tunga och långsamma. Författarna har designat SqueezeViT för att behålla transformerns vidsträckta perspektiv men "pressa" mängden information som måste bearbetas i varje steg. Målet är att bevara de delar av bilden som är viktiga för diagnos samtidigt som onödig beräkning kapas så att modellen kan köras på modest hårdvara.

Figure 1. Kompakt AI hjälper till att klassificera bröströntgenbilder korrekt på medicinska enheter med låg prestanda.

Hur den kompakta modellen ser lungor och hjärta

SqueezeViT kombinerar två byggstenar för att hantera bröströntgen effektivt. Den första, kallad ett Fire-block, fungerar som ett smart filter som komprimerar informationen från bilden till en mindre mängd funktioner och sedan expanderar den igen för att framhäva mönster som kan kopplas till sjukdom, såsom kanter och texturer. Den andra, kallad Translution-blocket, delar upp bilden i små patchar och tillämpar attention, vilket gör att modellen kan relatera signaler från avlägsna delar av lungorna eller hjärtat. Genom att använda något större patchar än många tidigare konstruktioner minskar modellen mängden arbete som attention-steget måste utföra, samtidigt som den fångar hur förändringar i en del av bröstkorgen hänger ihop med andra delar.

Sätta systemet på prov

För att se hur väl SqueezeViT fungerar i praktiken utvärderar forskarna modellen på två stora offentliga samlingar av bröströntgen: NIH ChestX-ray14-datasetet och CheXpert-datasetet. Tillsammans innehåller dessa hundratusentals bilder märkta för en rad tillstånd, såsom kardiomegali, ödem, pneumoni och lungknölar. Teamet tränar SqueezeViT från grunden och jämför dess förmåga att särskilja sjuka från friska fall med välkända djupinlärningsmodeller, inklusive tunga som ResNet och DenseNet samt lättare alternativ som MobileNet, ShuffleNet, SqueezeNet och MobileViT. De fokuserar på arean under ROC-kurvan, ett mått som belönar modeller för att rangordna avvikande fall före normala över olika beslutströsklar.

Figure 2. Lättviktig AI pressar samman bildinformation för att stegvis upptäcka lungsjukdomar i bröströntgenbilder.

Hastighet, storlek och noggrannhet i balans

Resultaten visar att SqueezeViT uppnår noggrannhet i nivå med, och i flera uppgifter bättre än, mycket större modeller samtidigt som den är betydligt mindre. Den använder omkring en halv miljon träningsbara parametrar och minskar antalet parametrar med mer än 40 procent jämfört med MobileViT och med över 90 procent jämfört med några av de största referensmodellerna. Dess beräkningar, minnesanvändning och bearbetningsfördröjningar på både grafikkort och vanliga CPU:er är alla reducerade, vilket tillåter analys av bilder på bara några millisekunder på typisk hårdvara. I miljöer med flera sjukdomar matchar eller ligger SqueezeViT nära de bästa tunga modellerna för många tillstånd och överträffar tydligt andra lättviktsdesigner. För enkla beslut normal-motsvarande-abnorm levererar den återigen starka och konsekventa resultat över båda datasetten.

Vad detta betyder för vardaglig vård

För läsare utan teknisk bakgrund är huvudbudskapet att SqueezeViT visar att det är möjligt att bygga en AI-assistent för bröströntgen som både är sparsamt med beräkningsresurser och noggrann i sin sjukdomsupptäckt. Även om den inte eliminerar behovet av radiologer eller kliniker kan den hjälpa till att flagga misstänkta bilder snabbare på trånga sjukhus och sprida avancerad bildanalys till kliniker med begränsad utrustning. Författarna noterar att verkliga etiketter kan vara brusiga och att vissa sjukdomskategorier fortfarande är utmanande, men de föreslår att denna kompakta design är ett lovande steg mot tillförlitliga, portabla stödfunktioner för bröstbilddiagnostik och kan i framtiden anpassas till andra undersökningar som CT eller MR.

Citering: Maurya, A., Lohia, A., Chirag et al. Efficient SqueezeViT: A lightweight vision transformer framework for chest X-ray image classification. Sci Rep 16, 16183 (2026). https://doi.org/10.1038/s41598-026-47918-4

Nyckelord: bröströntgen AI, vision-transformer, medicinsk bildanalys, lättviktig djupinlärning, upptäckt av lungsjukdom