Clear Sky Science · es

Inestabilidad y límites de rendimiento de las redes neuronales convolucionales en datos tabulares médicos no secuenciales: una investigación empírica

2026-03-03 · Volver al índice

Por qué esto importa en la medicina cotidiana

Los hospitales confían cada vez más en la inteligencia artificial para ayudar a predecir quién tiene cáncer, enfermedad cardíaca o infecciones graves usando historiales médicos tipo hoja de cálculo en lugar de imágenes. Este estudio plantea una pregunta aparentemente sencilla con grandes consecuencias prácticas: ¿son fiables las redes neuronales de uso común diseñadas para imágenes cuando les alimentamos datos médicos no visuales organizados en columnas, o se comportan de forma impredecible de maneras que podrían inducir a error a médicos y pacientes?

Dos tipos de calculadoras inspiradas en el cerebro

Los investigadores compararon dos familias de redes neuronales que imitan, de forma muy aproximada, cómo el cerebro procesa la información. Las redes neuronales convolucionales, o CNN, son el caballo de batalla del reconocimiento de imágenes moderno. Escanean las imágenes en pequeños parches buscando patrones locales como bordes o texturas y luego construyen formas más complejas. Los perceptrones multicapa, o MLP, adoptan un enfoque más simple: tratan cada característica de entrada —como la edad, la presión arterial o un valor de laboratorio— como un número independiente y aprenden combinaciones ponderadas de todas ellas a la vez, sin asumir un orden o vecindad particular.

Poniendo a prueba las tablas médicas

Para ver cómo se comportan estos modelos con datos sanitarios reales, el equipo usó tres conjuntos de datos médicos bien conocidos que se parecen más a hojas de cálculo que a imágenes. Uno contenía características clínicas y de laboratorio de pacientes con COVID‑19, usado para predecir quién sobreviviría. Otro describía mediciones microscópicas de tumores mamarios, utilizado para distinguir casos malignos de benignos. El tercero recogía factores de riesgo clásicos para enfermedad cardíaca procedentes de una base de datos de cardiología. Es importante: estos conjuntos de datos listan variables lado a lado, pero no existe un orden “izquierda‑a‑derecha” natural que tenga significado, a diferencia de los píxeles en una imagen.

Barajar las columnas y agitar los modelos

El núcleo del estudio fue una prueba de estrés masiva. Los autores reordenaron repetidamente el orden de las columnas de entrada y, al mismo tiempo, cambiaron al azar partes clave del diseño de las CNN, como cuántos “lectores de parches” (kernels) pequeños usaban, qué anchura tenían esos parches y cuántas neuronas había en la capa final de decisión. Para cada combinación de orden y arquitectura —1.000 permutaciones en total— entrenaron la CNN y, en paralelo, un MLP comparable. En lugar de centrarse en una única “mejor” precisión, observaron cómo se distribuían las puntuaciones de rendimiento a lo largo de todas esas ejecuciones, usando el área bajo la curva ROC (AUROC) como resumen de cuán bien cada modelo separaba a pacientes enfermos de sanos.

Qué encontraron dentro de la caja negra

Los resultados dibujaron un panorama aleccionador para las CNN en tablas médicas no basadas en imágenes. En algunas configuraciones elegidas con cuidado, las CNN podían igualar o incluso superar levemente a los MLP en rendimiento pico —especialmente en los datos de cáncer de mama, que contenían muchas características fuertes y claramente separadoras. Pero a lo largo de todos los reordenamientos y arquitecturas, las CNN mostraron variaciones de rendimiento mucho más amplias, con una tendencia preocupante a ejecuciones ocasionalmente muy pobres. Su éxito o fracaso dependía en gran medida de decisiones arbitrarias: cómo se ordenaron las columnas, el tamaño de cada ventana de escaneo y cuántos filtros y nodos de capa final usaba la red. Ventanas de escaneo más grandes, que mezclan muchas características vecinas, perjudicaron de forma constante tanto el rendimiento medio como la estabilidad en estas entradas no secuenciales.

Por qué los modelos más simples se comportaron mejor

Los MLP, en contraste, fueron mucho menos sensibles al orden de las columnas. Al no depender de vecindades locales, barajar las características no cambiaba lo que el modelo podía, en principio, aprender. Cuando los investigadores aumentaron el número de neuronas en la capa oculta del MLP, su rendimiento mejoró de forma sostenida y a menudo superó al de las CNN, pese a usar menos parámetros totales. Los conjuntos de datos con características claramente informativas tendieron a generar puntuaciones altas y estables para ambos modelos, pero las CNN seguían conllevando un mayor riesgo de colapsos ocasionales. En conjuntos más difíciles dominados por señales débiles, el rendimiento de las CNN variaba salvajemente con las elecciones de arquitectura, mientras que los MLP se mantenían relativamente estables.

Mensaje clave para la IA clínica

Para aplicaciones médicas que se basan en registros tipo hoja de cálculo en lugar de imágenes, este estudio concluye que las CNN pueden ser herramientas frágiles. Su aparente fortaleza en algunos benchmarks puede reflejar un orden afortunado de las columnas y decisiones de diseño particulares, más que un aprendizaje realmente robusto de patrones médicos. Los MLP y otros métodos que no asumen una disposición espacial significativa ofrecieron, en general, comportamientos más fiables a lo largo de miles de pruebas. Para médicos, científicos de datos hospitalarios y reguladores, la lección es clara: al construir sistemas de IA sobre datos tabulares de salud, es más seguro priorizar la estabilidad y la transparencia que perseguir el mayor valor puntual de rendimiento de redes diseñadas para imágenes y nunca pensadas para este tipo de entradas.

Cita: Wang, C., Elgendi, M. & Shin, H. Instability and performance limits of convolutional neural networks on non-sequential medical tabular data: an empirical investigation. Sci Rep 16, 11914 (2026). https://doi.org/10.1038/s41598-026-39875-9

Palabras clave: datos tabulares médicos, redes neuronales convolucionales, perceptrón multicapa, modelos de predicción clínica, estabilidad del modelo