Clear Sky Science · es
Predicción de la enfermedad de Alzheimer mediante aprendizaje profundo y selección de características interpretable basada en XAI a partir de datos de expresión génica en sangre
Por qué importa esta investigación
La enfermedad de Alzheimer va robando lentamente la memoria y la independencia de las personas, sin embargo, las pruebas más precisas de hoy en día suelen requerir escáneres cerebrales o punciones lumbares que son costosos, invasivos y difíciles de repetir. Este estudio explora una alternativa menos onerosa: utilizar una simple extracción de sangre y un análisis informático avanzado para detectar patrones en la actividad génica que señalen Alzheimer, lo que podría allanar el camino hacia un diagnóstico más temprano y accesible.

Una prueba de sangre en lugar de un escáner cerebral
Los autores se centran en pequeños cambios en cómo los genes se activan o desactivan en las células sanguíneas. Las placas modernas de laboratorio pueden medir la actividad de miles de genes a la vez, produciendo una enorme tabla de números para cada persona. El problema es que hay muchas más mediciones génicas que pacientes, lo que puede engañar fácilmente a los modelos informáticos. Para resolver esto, los investigadores combinaron tres grandes conjuntos de datos públicos de muestras de sangre de personas con Alzheimer y voluntarios sanos, creando un recurso integrado con más de doce mil genes compartidos medidos en cientos de individuos.
Enseñar a los ordenadores a identificar señales clave
En lugar de pedirle a un algoritmo que procese los doce mil genes, el equipo primero le enseñó a seleccionar un conjunto mucho más pequeño de genes especialmente informativos. Compararon varias formas de hacerlo, incluidos tests estadísticos simples, métodos que eliminan genes menos útiles paso a paso y enfoques que integran la selección directamente en el modelo. Estas herramientas de “selección de características” redujeron la lista a cientos o poco más de mil genes que distinguían mejor a los pacientes de los controles sanos. Los conjuntos de genes reducidos ayudaron a evitar que los modelos memorizasen ruido y mejoraron su rendimiento sobre datos no vistos.

Dar sentido a una caja negra
Para evitar una confianza ciega en una predicción de caja negra, los investigadores emplearon técnicas de inteligencia artificial explicable para comprender qué genes importaban más y cómo influían en cada decisión. Un método llamado SHAP, tomado de la teoría de juegos, puntúa la contribución de cada gen al resultado final para cada persona. Al aplicarlo a sus modelos de mejor desempeño, los autores destacaron un grupo central de genes cuyos patrones de actividad inclinaban consistentemente la balanza hacia una clasificación de Alzheimer o de sano. Muchos de estos genes ya se han relacionado con la salud cerebral o la función inmunitaria, lo que aporta credibilidad biológica al funcionamiento interno del modelo.
Potenciar el poder con pacientes sintéticos
Incluso tras fusionar conjuntos de datos, el número de muestras de sangre reales siguió siendo modesto. Para reforzar sus modelos, los autores entrenaron un tipo especializado de red neuronal, conocida como red generativa antagónica, para crear perfiles génicos sintéticos realistas que se asemejan a los de pacientes reales. Estas muestras artificiales se añadieron solo a los datos de entrenamiento, nunca a los datos de prueba, de modo que las comprobaciones de rendimiento se mantuvieran honestas. Con este conjunto de entrenamiento ampliado y genes elegidos con cuidado, una red neuronal profunda pudo identificar casos de Alzheimer con aproximadamente un 91% de precisión global y un 95% de precisión positiva, lo que significa que muy pocas personas sanas fueron incorrectamente señaladas como enfermas.
Qué significan los hallazgos para los pacientes
Este trabajo sugiere que una futura prueba sanguínea para el Alzheimer, potenciada por algoritmos inteligentes que tanto seleccionan como explican señales génicas clave, podría complementar o incluso reducir la dependencia de escaneos costosos y procedimientos invasivos. Aunque se necesita más validación en grupos independientes de pacientes y deben controlarse mejor las diferencias entre métodos de laboratorio, el estudio demuestra que combinar múltiples conjuntos de datos, eliminar información poco útil y abrir la “caja negra” de la IA puede acercarnos a una prueba sanguínea práctica e interpretable para una detección del Alzheimer más temprana y cómoda.
Cita: Hariharan, J., Jothi, R. Alzheimer’s disease prediction using deep learning and XAI based interpretable feature selection from blood gene expression data. Sci Rep 16, 8022 (2026). https://doi.org/10.1038/s41598-026-35260-8
Palabras clave: diagnóstico de Alzheimer, biomarcadores en sangre, expresión génica, aprendizaje profundo, IA explicable