Clear Sky Science · es

Un enfoque híbrido de aprendizaje profundo que integra CNN y transformador para la clasificación del cáncer de pulmón mediante tomografías

2026-03-17 · Volver al índice

Por qué esta investigación importa a pacientes y familias

El cáncer de pulmón es uno de los cánceres más letales del mundo, en gran parte porque con frecuencia se detecta demasiado tarde. Este estudio explora cómo la visión por computador avanzada puede ayudar a los médicos a interpretar tomografías de pulmón de forma más precisa y consistente, de modo que las zonas sospechosas en los pulmones puedan señalarse antes y con menos errores, apoyando potencialmente decisiones clínicas más rápidas y mejor informadas.

Ver dentro del tórax con ojos digitales

Los médicos suelen recurrir a las tomografías para buscar pequeños crecimientos en los pulmones que puedan indicar cáncer. Estos crecimientos, llamados nódulos, pueden ser muy pequeños y sutiles, especialmente en las primeras etapas de la enfermedad. El tejido pulmonar normal, los nódulos inofensivos y los tumores peligrosos pueden parecer sorprendentemente similares, incluso para especialistas experimentados. Pequeños cambios en la calidad de la imagen, el tejido de fondo o el ruido en la exploración pueden además ocultar la diferencia. Por ello, algunos cánceres se pasan por alto, mientras que otros hallazgos provocan falsas alarmas que conducen a pruebas de seguimiento innecesarias.

Figure 1. Cómo la IA interpreta tomografías de pulmón para ordenar imágenes en categorías: sana, inocua o cancerosa.

Enseñar a las máquinas a detectar patrones en las exploraciones pulmonares

Los investigadores diseñaron un sistema de aprendizaje profundo, denominado C-Swin, para ayudar a clasificar imágenes de TC de pulmón en tres categorías: normales, benignas (no cancerosas) y malignas (cancerosas). Los sistemas de aprendizaje profundo aprenden directamente de un gran número de imágenes de ejemplo, en lugar de basarse en reglas manuales. C-Swin combina dos ideas poderosas. Un tipo de red neuronal conocido como red convolucional se centra en detalles finos como bordes, texturas y pequeñas formas que revelan la estructura de un nódulo. Al mismo tiempo, un módulo transformer, inspirado por herramientas usadas en traducción de lenguaje, observa la imagen de forma más amplia, considerando cómo se relacionan las regiones entre sí en todo el pulmón.

Centrarse en lo que realmente importa en la imagen

Para aprovechar al máximo las tomografías, el equipo introdujo un mecanismo de atención especial que ayuda al modelo a concentrarse en las áreas relevantes mientras ignora las distracciones de fondo. La imagen de TC se divide en pequeños parches o ventanas. Dentro de estas ventanas, el modelo aprende qué áreas contienen la información más útil para juzgar si el tejido es sano o no. Al desplazar y combinar ventanas en diferentes direcciones, la red preserva las relaciones entre regiones vecinas y captura tanto detalles de primer plano como estructuras de mayor alcance en los pulmones. Un componente adicional de compuerta ayuda al sistema a enfatizar patrones sutiles pero importantes y suprimir señales menos útiles, refinando cómo el modelo distingue nódulos inofensivos de los peligrosos.

Figure 2. Cómo un modelo de IA de doble vía se aproxima a los detalles pulmonares y a la imagen completa para resaltar las zonas con probabilidad de cáncer.

Poner el sistema a prueba

Los autores entrenaron y evaluaron C-Swin usando un conjunto de TC de acceso público recopilado en hospitales iraquíes, que incluye imágenes de pulmones sanos, nódulos benignos y casos malignos. Dado que los conjuntos de datos médicos suelen ser pequeños, ampliaron el conjunto de entrenamiento mediante aumento de datos, como volteo y rotación de imágenes, para imitar una mayor variedad de exploraciones. Tras un preprocesado y entrenamiento cuidadosos, el modelo clasificó correctamente las imágenes con una precisión de aproximadamente el 96 % y obtuvo puntuaciones igualmente altas en precisión, recall y F1-score, medidas que equilibran los cánceres no detectados frente a las falsas alarmas. En pruebas repetidas usando diferentes particiones de los datos, los resultados se mantuvieron estables, y las comprobaciones estadísticas mostraron que C-Swin rindió significativamente mejor que varios enfoques de aprendizaje profundo existentes.

Qué podría significar esto para la atención futura

Aunque este estudio no reemplaza el juicio de un radiólogo, muestra que una combinación bien diseñada de análisis local y global de la imagen puede ayudar a las máquinas a enfocarse en las mismas regiones pulmonares que los expertos consideran más importantes. Las visualizaciones Grad-CAM, que resaltan las áreas de la imagen que influyen en las decisiones del modelo, sugieren que C-Swin tiende a concentrarse en las regiones de la lesión más que en el fondo irrelevante. Los autores señalan que el trabajo se basa en un único conjunto de datos relativamente pequeño, por lo que aún se necesita una validación más amplia en distintos hospitales y con diferentes escáneres. Si se valida en colecciones de exploraciones más grandes y diversas, tales sistemas podrían convertirse en asistentes útiles en la sala de lectura, ayudando a los clínicos a priorizar casos, reducir omisiones y, potencialmente, favorecer una detección más temprana del cáncer de pulmón.

Cita: Yousafzai, S.N., Nasir, I.M., Mansour, S. et al. A hybrid deep learning approach integrating CNN and transformer for lung cancer classification using CT scans. Sci Rep 16, 15420 (2026). https://doi.org/10.1038/s41598-026-41161-7

Palabras clave: cáncer de pulmón, tomografía computarizada, aprendizaje profundo, IA médica, clasificación de imágenes