Clear Sky Science · es

SqueezeViT eficiente: un marco de transformador de visión ligero para la clasificación de imágenes de radiografías de tórax

2026-04-09 · Volver al índice

Por qué importa leer las radiografías de tórax más rápido

Las radiografías de tórax son una de las pruebas más comunes que usan los médicos para buscar problemas pulmonares y cardiacos, desde neumonía hasta tuberculosis. En hospitales ajetreados o en clínicas pequeñas con ordenadores limitados, es difícil ejecutar grandes herramientas de inteligencia artificial que podrían ayudar a los médicos a leer estas imágenes con rapidez. Este estudio presenta un nuevo modelo de IA compacto, llamado SqueezeViT, diseñado para detectar enfermedades del tórax en radiografías consumiendo mucha menos potencia de cálculo que los sistemas habituales, lo que lo hace más práctico para la atención clínica real.

Una nueva forma de reducir los lectores inteligentes de imágenes

Las herramientas modernas de reconocimiento de imágenes suelen apoyarse en dos ideas. Las redes neuronales convolucionales son buenas captando detalles finos en regiones pequeñas de una imagen, mientras que los transformadores son mejores viendo el panorama general a través de toda la exploración. Sin embargo, los transformadores de visión estándar son pesados y lentos. Los autores diseñan SqueezeViT para conservar la visión amplia de los transformadores pero “exprimir” la cantidad de información que debe procesarse en cada paso. Su objetivo es conservar las partes de la imagen que importan para el diagnóstico mientras recortan el cálculo extra para que el modelo pueda ejecutarse en hardware modesto.

Figure 1. La IA compacta ayuda a clasificar radiografías de tórax con precisión en dispositivos médicos de baja potencia.

Cómo el modelo compacto ve pulmones y corazón

SqueezeViT combina dos bloques constructivos para manejar radiografías de tórax con eficiencia. El primero, llamado bloque Fire, actúa como un filtro inteligente que comprime la información procedente de la imagen en un conjunto más pequeño de características y luego la expande de nuevo para resaltar patrones como bordes y texturas asociados a la enfermedad. El segundo, llamado bloque Translution, divide la imagen en pequeños parches y aplica atención, permitiendo al modelo relacionar señales de partes distantes de los pulmones o el corazón. Al usar parches algo más grandes que muchos diseños anteriores, el modelo reduce la carga de trabajo del paso de atención, sin dejar de captar cómo los cambios en una zona del tórax se conectan con otras.

Poniendo el sistema a prueba

Para evaluar el rendimiento de SqueezeViT en la práctica, los investigadores lo prueban en dos grandes colecciones públicas de radiografías de tórax: el conjunto NIH ChestX-ray14 y el conjunto CheXpert. Juntos incluyen cientos de miles de imágenes etiquetadas para una variedad de condiciones, como cardiomegalia, edema, neumonía y nódulos pulmonares. El equipo entrena SqueezeViT desde cero y compara su capacidad para distinguir casos enfermos de sanos frente a modelos de aprendizaje profundo bien conocidos, incluidos pesos pesados como ResNet y DenseNet, así como opciones más ligeras como MobileNet, ShuffleNet, SqueezeNet y MobileViT. Se centran en el área bajo la curva ROC, una métrica que premia a los modelos por ordenar los casos anormales por delante de los normales a través de distintos umbrales de decisión.

Figure 2. La IA ligera comprime detalles de la imagen para detectar problemas pulmonares en radiografías de tórax, paso a paso.

Equilibrio entre velocidad, tamaño y precisión

Los resultados muestran que SqueezeViT alcanza una precisión a la par y, en varias tareas, superior a la de modelos mucho más grandes, mientras que es considerablemente más pequeño. Usa alrededor de medio millón de parámetros entrenables, reduciendo el recuento de parámetros en más del 40 por ciento en comparación con MobileViT y en más del 90 por ciento frente a algunos de los mayores modelos de referencia. Sus operaciones, uso de memoria y latencias de procesamiento tanto en unidades gráficas como en CPU estándar están reducidas, permitiéndole analizar imágenes en apenas unos milisegundos en hardware típico. En escenarios de múltiples enfermedades, SqueezeViT iguala o queda muy cercano a los mejores modelos pesados para muchas condiciones y supera claramente a otros diseños ligeros. Para decisiones simples de normal versus anormal, vuelve a ofrecer puntuaciones sólidas y consistentes en ambos conjuntos de datos.

Qué supone esto para la atención cotidiana

Para lectores sin formación técnica, el mensaje clave es que SqueezeViT demuestra que es posible construir un asistente de IA para radiografías de tórax que sea a la vez austero en recursos informáticos y cuidadoso en la detección de enfermedades. Aunque no elimina la necesidad de radiólogos o clínicos, podría ayudar a señalar exploraciones sospechosas más rápido en hospitales saturados y ampliar el análisis avanzado de imágenes a clínicas con equipos limitados. Los autores señalan que las etiquetas del mundo real pueden ser ruidosas y que algunas categorías de enfermedad siguen siendo desafiantes, pero sugieren que este diseño compacto es un paso prometedor hacia herramientas de apoyo portátiles y fiables para la imagenología torácica y que podría adaptarse en el futuro a otras exploraciones como TC o RM.

Cita: Maurya, A., Lohia, A., Chirag et al. Efficient SqueezeViT: A lightweight vision transformer framework for chest X-ray image classification. Sci Rep 16, 16183 (2026). https://doi.org/10.1038/s41598-026-47918-4

Palabras clave: IA para radiografías de tórax, transformador de visión, análisis de imágenes médicas, aprendizaje profundo ligero, detección de enfermedades pulmonares