Clear Sky Science · es
Clasificación multiclase de enfermedades oculares mediante técnicas de fusión EfficientNetB0 de aprendizaje profundo
Por qué importan las revisiones oculares tempranas
La pérdida de la vista suele aparecer de forma silenciosa. Problemas oculares comunes como las cataratas, el glaucoma y el daño diabético a la retina pueden robar la visión mucho antes de que los síntomas sean evidentes. En todo el mundo no hay suficientes especialistas en oftalmología para revisar a todas las personas a tiempo, sobre todo en zonas rurales o de bajos ingresos. Este estudio explora cómo un sistema informático inteligente que analiza fotografías del fondo del ojo podría ayudar a los médicos a detectar varias enfermedades oculares importantes de forma temprana y fiable, usando el mismo tipo de inteligencia artificial que impulsa las búsquedas de imágenes modernas y el reconocimiento facial.
Detectar la enfermedad en una sola instantánea
Los oftalmólogos ya usan fotografías en color de la retina—la capa sensible a la luz en la parte posterior del ojo—para buscar enfermedades. En estas imágenes, las cataratas aparecen como opacidades en la ruta óptica, el glaucoma altera la forma del nervio óptico y la retinopatía diabética salpica la retina con pequeñas fugas y cicatrices. Los investigadores reunieron 4.217 imágenes retinianas de alta resolución, equilibradas cuidadosamente en cuatro grupos: ojos sanos, catarata, glaucoma y retinopatía diabética. Al trabajar con una colección equilibrada extraída de varias fuentes públicas, redujeron el riesgo de que el equipo aprenda atajos ligados a un hospital, cámara o tipo de enfermedad concretos en lugar de los verdaderos signos de la afección. 
Dejar que dos “cerebros” trabajen juntos
Los programas modernos de lectura de imágenes, llamados modelos de aprendizaje profundo, son muy buenos identificando patrones, pero cada uno tiene sus propias fortalezas y puntos ciegos. En lugar de confiar en un único modelo, el equipo construyó sistemas “de doble columna vertebral” que ejecutan en paralelo dos redes de imagen conocidas y luego combinan lo que detectan. Una de estas redes, EfficientNetB0, es un modelo compacto y eficiente que captura la estructura general de las imágenes; se usó siempre como base. Se combinó sucesivamente con tres modelos más—ResNet50, InceptionV3 y AlexNet—que se especializan en reconocimiento de patrones más profundo, multiescala o ligero. Los sistemas luego fusionaron los dos conjuntos de características de varias maneras: uniéndolos, sumándolos, ponderándolos de forma distinta o dejando que cada modelo vote sobre la respuesta final.
Poner el sistema a prueba
Los investigadores entrenaron y ajustaron 12 combinaciones de modelos diferentes con la mayor parte de sus imágenes retinianas, reservando algunas para comprobar el rendimiento. En esta prueba interna, el mejor enfoque unió características de EfficientNetB0 y ResNet50, alcanzando alrededor del 95% de precisión global y una puntuación casi perfecta en una medida estándar de calidad diagnóstica. Combinaciones similares con InceptionV3 y AlexNet también rindieron de forma sólida. Para ver si el sistema podía manejar la variedad del mundo real en lugar de limitarse a memorizar el conjunto de entrenamiento, el equipo probó todos los modelos con 400 imágenes de dos colecciones independientes tomadas en distintos hospitales con cámaras diferentes. Aquí, la precisión subió aún más, situándose entre aproximadamente el 95% y el 98%, y todos los modelos mantuvieron puntuaciones muy altas en su capacidad para separar ojos enfermos de ojos sanos.
Mirar dentro de la caja negra
Los médicos y los reguladores piden cada vez más no solo “¿Qué tan preciso es?” sino también “¿Por qué toma esa decisión?”. Para responder a esto, los autores usaron herramientas de visualización como Score‑CAM y LIME. Estas herramientas destacan qué partes de una imagen influyen más en el veredicto del modelo, convirtiendo la “atención” del sistema en mapas de calor superpuestos sobre la retina. En la retinopatía diabética, las áreas resaltadas coincidieron con vasos sanguíneos con fugas y manchas cerca de la mácula, el centro de la visión nítida. En el glaucoma, el foco estuvo en la cabeza del nervio óptico y el tejido circundante, donde se produce el daño. Las decisiones relacionadas con cataratas enfatizaron la opacidad difusa a lo largo de la vía visual. Crucialmente, los ojos normales no mostraron puntos calientes fuertes y mal situados. Esta coincidencia estrecha entre el foco del modelo y la anatomía de libro sugiere que el sistema se está fijando en las mismas características que usan los clínicos en la práctica. 
Qué puede significar esto para la atención cotidiana
Para un no especialista, la conclusión es que una sola fotografía retiniana, tomada con una cámara estándar, podría pronto ayudar a detectar varias causas principales de ceguera a la vez. El diseño de doble red y las formas inteligentes de fusionar sus salidas ofrecieron no solo una alta precisión, sino también resultados estables cuando las imágenes provenían de nuevas clínicas y dispositivos—algo imprescindible para el uso en el mundo real. Aunque todavía se necesitan más pruebas en poblaciones más amplias y variadas, sobre todo antes de que la tecnología pueda guiar tratamientos por sí sola, este trabajo muestra que combinar distintos tipos de “ojos” artificiales puede producir segundas opiniones rápidas y fiables. En hospitales concurridos, pequeñas clínicas o unidades móviles de cribado, estas herramientas podrían ayudar a señalar a las personas que más urgentemente necesitan ver a un oftalmólogo, preservando potencialmente la vista de millones.
Cita: Sah, U.K., Chatterjee, J.M. & Sujatha, R. Multi-class eye disease classification using deep learning EfficientNetB0 fusion techniques. Sci Rep 16, 6368 (2026). https://doi.org/10.1038/s41598-026-35357-0
Palabras clave: enfermedad ocular, imagenología retinal, aprendizaje profundo, glaucoma, retinopatía diabética