Clear Sky Science · es

Agrupación por atención de clase y sparsidad de tokens en transformers visuales para la interpretación de radiografías de tórax

2026-02-10 · Volver al índice

Radiografías más inteligentes para una enfermedad pulmonar global

La tuberculosis sigue siendo una de las enfermedades infecciosas más mortales del mundo, y las radiografías de tórax suelen ser la primera y, a menudo, la única prueba de imagen disponible en clínicas saturadas, especialmente en países de ingresos bajos y medios. Sin embargo, leer estas exploraciones es difícil y lleva tiempo, incluso para expertos. Este estudio presenta un sistema de inteligencia artificial diseñado no solo para identificar con alta precisión señales de tuberculosis en radiografías de tórax, sino también para mostrar a los médicos exactamente qué partes de los pulmones influyeron en su decisión, con el objetivo de generar confianza y apoyar diagnósticos más rápidos y consistentes.

Por qué es tan difícil interpretar imágenes torácicas

Las radiografías de tórax son baratas, rápidas y ampliamente accesibles, lo que las hace atractivas para el cribado masivo. El inconveniente es que la tuberculosis puede manifestarse de formas sutiles que se pasan fácilmente por alto, particularmente cuando las imágenes son ruidosas, están subexpuestas o sobreexpuestas, o se obtienen con equipos antiguos. Los lectores humanos pueden discrepar entre sí, y las clínicas con mucho volumen pueden sobrecargar a los radiólogos. Los programas informáticos tradicionales abordaban esto midiendo características diseñadas a mano en las imágenes y alimentándolas a modelos de aprendizaje automático estándar, pero estos primeros sistemas sufrían cuando las exploraciones procedían de hospitales nuevos o tenían ajustes técnicos distintos.

De las redes neuronales a la visión centrada en la atención

El aprendizaje profundo, y en particular las redes neuronales convolucionales, mejoró la situación al aprender patrones directamente de los píxeles, logrando buenos resultados en conjuntos de datos de tuberculosis. No obstante, estas redes se centran principalmente en vecindarios locales de la imagen y pueden pasar por alto patrones más amplios que abarcan ambos pulmones. Modelos más recientes, llamados transformers visuales, consideran una radiografía como una cuadrícula de pequeños parches y aprenden cómo cada parche se relaciona con los demás, capturando estructuras de largo alcance. Aunque son potentes, los transformers “de serie” pueden atender a regiones poco importantes y resultar difíciles de interpretar, lo que plantea dudas sobre si sus decisiones se alinean con el razonamiento clínico.

Una canalización de IA a medida para exploraciones pulmonares

Los autores diseñan un transformer visual personalizado para abordar estas debilidades en radiografías de tórax. Primero, cada imagen se preprocesa cuidadosamente: se redimensiona, se normaliza y a menudo se aplica una técnica de mejora de contraste que realza lesiones pulmonares tenues evitando la sobreagudización. Una etapa convolucional ligera al frente del modelo extrae detalles finos como bordes y texturas que importan en imágenes médicas. A continuación, la exploración se divide en pequeños parches, cada uno convertido en un token que el transformer puede procesar.

Enseñar al modelo dónde mirar

Para ayudar al sistema a mantener la trazabilidad anatómica, el modelo emplea un mecanismo de codificación posicional que inyecta información sobre la ubicación de cada parche en los pulmones, en lugar de tratar todas las posiciones como intercambiables. También introduce tokens especiales de “clase”, uno por categoría de enfermedad, que aprenden a reunir la evidencia más relevante de todos los parches. Una estrategia de sparsidad anima a la red a apoyarse solo en un subconjunto de los tokens más informativos, descartando patrones de fondo y ruido. La receta de entrenamiento incluye técnicas como el descarte aleatorio de tokens, un ajuste cuidadoso de la tasa de aprendizaje y cómputo en precisión mixta, todas elegidas para estabilizar el aprendizaje con datos médicos limitados y evitar el sobreajuste a peculiaridades de las imágenes de entrenamiento.

Ver lo que la IA ve

De forma crucial, el sistema está diseñado para explicarse a sí mismo. Tras emitir una predicción de “tuberculosis” o “normal”, el modelo genera mapas de calor mediante un método conocido como Grad‑CAM. Estas superposiciones coloreadas resaltan qué regiones pulmonares influyeron más en la decisión. Los autores diseñan su canal de explicaciones para mostrar ejemplos equilibrados tanto de casos enfermos como sanos, de modo que los radiólogos puedan verificar que la herramienta está mirando estructuras clínicamente relevantes y no artefactos irrelevantes. En dos conjuntos de datos públicos de tuberculosis, el enfoque alcanzó una precisión de validación cercana al 98 por ciento y un área bajo la curva próxima a la discriminación perfecta, aunque los autores advierten que su partición de datos a nivel de imagen puede sobreestimar ligeramente el rendimiento en el mundo real y que aún se necesita evaluación externa.

Qué significa esto para la atención futura

En términos sencillos, este trabajo demuestra un sistema de IA que puede detectar rápida y con precisión casos probables de tuberculosis en radiografías de tórax al mismo tiempo que traza un “mapa” visual claro de su razonamiento. Una herramienta así podría ayudar a priorizar pacientes en clínicas con recursos limitados, reducir casos perdidos y proporcionar una segunda opinión consistente para los radiólogos. Al mismo tiempo, los autores subrayan que su modelo solo se ha probado en dos conjuntos de datos públicos, se centra en una sola etiqueta de enfermedad y carece de validación clínica completa. Los pasos futuros incluyen extender el método a múltiples afecciones pulmonares, adaptarlo a exploraciones 3D como la TC, validar sus explicaciones con radiólogos y probarlo en distintos hospitales. Aun así, el estudio representa un avance prometedor hacia una IA que no solo sea precisa, sino también transparente y confiable en la lucha contra la tuberculosis.

Cita: Lokunde, V., Sundar, K., Khokhar, A. et al. Class-attention pooling and token sparsity based vision transformers for chest X-ray interpretation. Sci Rep 16, 8035 (2026). https://doi.org/10.1038/s41598-026-37109-6

Palabras clave: tuberculosis, radiografía de tórax, transformer visual, IA explicable, imagen médica