Clear Sky Science · pt

SqueezeViT Eficiente: uma estrutura leve de vision transformer para classificação de imagens de raio‑X de tórax

2026-04-09 · Voltar ao índice

Por que acelerar a leitura de raios‑X de tórax importa

Exames de raio‑X de tórax são uma das formas mais comuns que médicos usam para procurar problemas pulmonares e cardíacos, de pneumonia a tuberculose. Em hospitais sobrecarregados ou em clínicas pequenas com computadores limitados, é difícil rodar grandes ferramentas de inteligência artificial que poderiam ajudar a interpretar essas imagens rapidamente. Este estudo apresenta um novo modelo de IA compacto, chamado SqueezeViT, projetado para identificar doenças no tórax em radiografias usando muito menos poder de computação do que sistemas típicos, tornando‑o mais prático para cuidados em contexto real.

Uma nova forma de encolher leitores de imagem inteligentes

Ferramentas modernas de reconhecimento de imagem frequentemente se apoiam em duas ideias. Redes neurais convolucionais são boas em captar detalhes finos em pequenas regiões da imagem, enquanto modelos transformer são melhores em ver o panorama geral em todo o exame. Vision transformers padrão, porém, são pesados e lentos. Os autores projetaram o SqueezeViT para preservar a visão ampla dos transformers, mas “espremer” a quantidade de informação que precisa ser processada em cada etapa. O objetivo é manter as partes da imagem importantes para o diagnóstico enquanto reduzem o trabalho computacional extra, para que o modelo possa rodar em hardware modesto.

Figure 1. IA compacta ajuda a classificar imagens de raio‑X de tórax com precisão em dispositivos médicos de baixa potência.

Como o modelo compacto enxerga pulmões e coração

O SqueezeViT combina dois blocos fundamentais para lidar com raios‑X de tórax de forma eficiente. O primeiro, chamado bloco Fire, funciona como um filtro inteligente que comprime a informação vinda da imagem em um conjunto menor de características e então a expande novamente para destacar padrões como bordas e texturas associadas a doenças. O segundo, chamado Translution Block, divide a imagem em pequenos patches e aplica atenção, permitindo que o modelo relacione sinais de partes distantes dos pulmões ou do coração. Ao usar patches ligeiramente maiores do que muitos projetos anteriores, o modelo reduz o trabalho que a etapa de atenção precisa realizar, ao mesmo tempo em que captura como alterações em uma parte do tórax se conectam a outras.

Testando o sistema

Para avaliar o desempenho do SqueezeViT na prática, os pesquisadores o testam em duas grandes coleções públicas de radiografias de tórax: o conjunto NIH ChestX‑ray14 e o conjunto CheXpert. Juntos, eles incluem centenas de milhares de imagens rotuladas para uma variedade de condições, como cardiomegalia, edema, pneumonia e nódulos pulmonares. A equipe treina o SqueezeViT do zero e compara sua capacidade de distinguir casos doentes de saudáveis com modelos bem conhecidos de deep learning, incluindo pesos pesados como ResNet e DenseNet, assim como opções mais leves como MobileNet, ShuffleNet, SqueezeNet e MobileViT. O foco é a área sob a curva ROC (AUROC), uma métrica que recompensa modelos por rankear casos anormais à frente dos normais em diferentes limiares de decisão.

Figure 2. IA leve comprime detalhes da imagem para identificar problemas pulmonares em raios‑X do tórax passo a passo.

Equilíbrio entre velocidade, tamanho e acurácia

Os resultados mostram que o SqueezeViT atinge acurácia equivalente e, em várias tarefas, superior à de modelos muito maiores, enquanto é significativamente menor. Ele usa cerca de meio milhão de parâmetros treináveis, reduzindo o número de parâmetros em mais de 40% em comparação com o MobileViT e em mais de 90% frente a alguns dos maiores modelos de referência. Seus requisitos de computação, uso de memória e atrasos de processamento em GPUs e CPUs padrão são todos reduzidos, permitindo analisar imagens em apenas alguns milissegundos em hardware típico. Em cenários com múltiplas doenças, o SqueezeViT iguala ou fica próximo aos melhores modelos pesados para muitas condições e supera claramente outros designs leves. Para decisões simples de normal versus anormal, entrega novamente pontuações fortes e consistentes em ambos os conjuntos de dados.

O que isso significa para o cuidado cotidiano

Para leitores sem formação técnica, a mensagem central é que o SqueezeViT demonstra ser possível construir um assistente de IA para raios‑X de tórax que seja ao mesmo tempo econômico em recursos computacionais e criterioso na detecção de doenças. Embora não elimine a necessidade de radiologistas ou clínicos, ele pode ajudar a sinalizar exames suspeitos mais rapidamente em hospitais lotados e estender análises avançadas de imagem a clínicas com equipamentos limitados. Os autores observam que rótulos do mundo real podem ser ruidosos e que algumas categorias de doença ainda são desafiadoras, mas sugerem que esse design compacto é um passo promissor rumo a ferramentas de suporte confiáveis e portáteis para imagens torácicas e pode ser adaptado no futuro para outros exames como tomografia computadorizada (TC) ou ressonância magnética (RM).

Citação: Maurya, A., Lohia, A., Chirag et al. Efficient SqueezeViT: A lightweight vision transformer framework for chest X-ray image classification. Sci Rep 16, 16183 (2026). https://doi.org/10.1038/s41598-026-47918-4

Palavras-chave: IA para raio‑X de tórax, vision transformer, análise de imagem médica, aprendizado profundo leve, detecção de doenças pulmonares