Clear Sky Science · es

Un método de protección de la privacidad de datos para modelos de predicción de enfermedades infecciosas con equilibrio entre velocidad de entrenamiento y precisión

2026-02-05 · Volver al índice

Por qué sigue siendo importante proteger los datos de salud

Los hospitales y las agencias de salud confían hoy en la inteligencia artificial para prever brotes de gripe, COVID-19 y otras infecciones con días o semanas de antelación. Estas predicciones pueden orientar campañas de vacunación, planificación de personal y la respuesta a emergencias. Sin embargo, los mismos expedientes detallados de pacientes que hacen precisas las predicciones son también extremadamente sensibles. Las leyes y la preocupación pública suelen impedir que los datos se agrupen entre instituciones, lo que debilita la potencia de estos modelos. Este artículo presenta una forma de entrenar sistemas de predicción de enfermedades infecciosas de alta calidad manteniendo los datos de cada hospital almacenados de forma segura en su sede.

Aprender de muchos hospitales sin compartir historiales

Los autores se basan en una técnica llamada aprendizaje federado, en la que varios hospitales entrenan conjuntamente un modelo de predicción compartido. En lugar de copiar los registros de pacientes a un servidor central, cada centro entrena el modelo localmente y sólo envía actualizaciones numéricas a los parámetros internos del modelo. Un servidor central combina estas actualizaciones y redistribuye el modelo mejorado. Este bucle se repite muchas veces. En teoría, el aprendizaje federado protege la privacidad porque la información personal nunca abandona las instalaciones. En la práctica, sin embargo, atacantes ingeniosos a veces pueden inferir detalles sobre los datos subyacentes a partir de las actualizaciones compartidas, por lo que se requiere protección adicional.

Bloquear los números con encriptación inteligente

Para reforzar la seguridad, el equipo utiliza encriptación homomórfica —una forma de bloqueo digital que permite realizar cálculos directamente sobre números encriptados, sin llegar a verlos en claro—. Los esquemas tradicionales de este tipo son muy seguros pero notoriamente lentos y con gran consumo de recursos, lo que dificulta su uso con modelos grandes y complejos, como los basados en redes de memoria a corto y largo plazo (LSTM). Los investigadores diseñan un esquema híbrido que trata distintas partes del modelo de manera diferente. Los componentes más reveladores se protegen con una forma de encriptación fuerte pero costosa, mientras que las partes menos sensibles usan un bloqueo más ligero y rápido. Además, un calendario aleatorio preestablecido decide en qué rondas de entrenamiento los centros envían realmente actualizaciones encriptadas, permitiéndoles omitir comunicaciones redundantes. Las pruebas muestran que esta combinación acelera el entrenamiento en aproximadamente un 25 por ciento frente al uso de la encriptación pesada en todos los casos, manteniendo los datos protegidos bajo sólidas suposiciones criptográficas.

Enviar sólo las actualizaciones que realmente importan

Aun con un bloqueo más inteligente, transferir cada pequeño cambio del modelo entre instituciones desperdicia tiempo y ancho de banda. Por ello, los autores proponen una nueva regla de entrenamiento llamada Selección de Datos–Descenso de Gradiente Estocástico de Selección Distribuida (DS-DSSGD). Durante el entrenamiento, el algoritmo mide cuánto cambia cada parte del modelo de un paso a otro. Sólo se transmiten las actualizaciones que superan un umbral predefinido; los cambios pequeños y de bajo impacto se ignoran. Al mismo tiempo, el algoritmo registra qué puntos de datos son responsables de los mayores y más informativos cambios. Estos registros influyentes se recopilan en un conjunto de datos refinado que se utiliza para una ronda final de entrenamiento. Experimentos con tres años de informes reales de infecciones de la ciudad de Yichang, combinados con tendencias locales de búsquedas web, muestran que DS-DSSGD reduce el tiempo de entrenamiento en torno a un 10 por ciento frente a varios métodos estándar, sin pérdida significativa de precisión predictiva.

Una plataforma práctica para la colaboración segura

Los avances técnicos sólo importan si los hospitales y los laboratorios pueden utilizarlos realmente. Para cerrar esta brecha, el equipo integra sus métodos en un entorno de computación real llamado Plataforma de Computación de Seguridad de Privacidad Yi Shu Fang XDP. XDP gestiona todo el recorrido de los datos de salud, desde la recolección y el limpiado hasta el análisis encriptado y el intercambio de resultados. Soporta herramientas familiares para estadísticos, bioinformáticos y clínicos, y permite que investigadores de distintas instituciones colaboren dentro de un espacio de trabajo controlado sin descargar nunca los datos en bruto. Dentro de esta plataforma, el esquema de encriptación híbrido y el algoritmo DS-DSSGD funcionan como componentes enchufables, convirtiendo el marco teórico en un sistema operativo.

Qué significa esto para la predicción de futuros brotes

En términos cotidianos, este estudio demuestra que es posible “tenerlo todo” en la predicción de enfermedades infecciosas: proteger la privacidad de los pacientes y, a la vez, entrenar modelos rápidos y precisos con datos procedentes de muchas instituciones. Al encriptar distintas partes del modelo con el nivel de fortaleza justo, enviar actualizaciones sólo cuando es necesario y envolver todo dentro de una plataforma de colaboración segura, los autores reducen el coste de la privacidad de una carga paralizante a un sobrecoste manejable. Si se adoptaran ampliamente, estos enfoques podrían permitir a hospitales y agencias de salud pública unir sus conocimientos contra la próxima epidemia sin exponer nunca los registros médicos individuales.

Cita: Wang, X., Jiang, Y., Pan, G. et al. A data privacy protection method for infectious disease prediction models with balanced training speed and accuracy. Sci Rep 16, 7415 (2026). https://doi.org/10.1038/s41598-026-38906-9

Palabras clave: predicción de enfermedades infecciosas, privacidad de datos de salud, aprendizaje federado, encriptación homomórfica, aprendizaje profundo