Clear Sky Science · es

Un conjunto de datos sintéticos que preserva la privacidad para el análisis del aprendizaje en educación superior mejorada por tecnología

2026-03-23 · Volver al índice

Por qué importan los datos estudiantiles sin riesgos de privacidad

Las universidades recopilan hoy enormes cantidades de información paso a paso sobre cómo aprenden los estudiantes en línea, desde inicios de sesión y visionados de vídeo hasta publicaciones en foros y calificaciones de cuestionarios. Estos datos podrían ayudar a los docentes a detectar a estudiantes en dificultades a tiempo y a diseñar mejores cursos, pero su compartición fuera del campus está muy limitada por la ley y la ética de la privacidad. Este artículo describe una nueva forma de desbloquear ese valor: un conjunto de datos de estudiantes grande, realista pero completamente falso que pretende proteger a las personas mientras sigue siendo útil para la investigación seria.

Figure 1. Cómo los registros falsos de estudiantes pueden imitar datos reales de aprendizaje al tiempo que protegen la privacidad

La idea de registros estudiantiles análogos y seguros

El estudio presenta SynEdu-HEDL, una colección de 20.000 registros estudiantiles artificiales construidos para asemejarse a datos universitarios reales sin incluir a ningún aprendiz real. Cada registro agrupa información de contexto, actividad en línea semana a semana durante un trimestre de 16 semanas y resultados finales del curso. El objetivo es que los patrones relevantes para la educación sobrevivan en estos datos inventados, como cómo la constancia en el compromiso se relaciona con las calificaciones, mientras que cualquier rastro de un estudiante real queda diluido. Al publicar este conjunto de datos de forma abierta, el autor espera ofrecer a los investigadores un campo de pruebas común para ensayar ideas sin tocar registros sensibles.

Cómo se crean los estudiantes sintéticos

Para construir SynEdu-HEDL, el investigador trabajó primero con una universidad pública grande que ya registra rica actividad de aprendizaje en línea en cientos de cursos. Tras una revisión ética estricta, los datos reales se limpiaron, simplificaron y eliminaron los identificadores directos. Luego se empleó una canalización de generación en varios pasos. Una parte del sistema se enfoca en información estática como franja de edad o carrera, otra aprende cómo cambian los comportamientos de estudio a lo largo de las semanas del trimestre, y una tercera se asegura de que comportamiento y resultados sigan moviéndose conjuntamente de forma coherente. A lo largo del proceso, el sistema añade aleatoriedad calibrada cuidadosamente para que no pueda reconstruirse la huella de una persona concreta, mientras que las trayectorias de aprendizaje típicas siguen siendo visibles.

Figure 2. Cómo los patrones del comportamiento real de estudio se transforman en datos sintéticos seguros para la privacidad

Mantener la privacidad fuerte mientras se conserva la utilidad

Proteger la privacidad es más que quitar nombres. El equipo puso a prueba SynEdu-HEDL frente a una batería de ataques simulados que intentan adivinar si un estudiante concreto estaba en los datos originales o reconstruir su perfil. Estos ataques no obtuvieron mejores resultados que una conjetura aleatoria, y comprobaciones matemáticas formales muestran que el conjunto de datos cumple una definición estricta de riesgo de privacidad. Al mismo tiempo, el autor comparó cientos de estadísticas entre los datos reales y los sintéticos. Las distribuciones básicas, las relaciones entre variables y las formas del compromiso a lo largo del tiempo coincidieron de forma cercana, incluidos patrones raros pero importantes como caídas repentinas de actividad antes de un suspenso.

¿Pueden los investigadores confiar en resultados obtenidos con datos falsos?

Para verificar si los registros sintéticos son realmente útiles, el estudio reconstruyó herramientas comunes de analítica del aprendizaje usando SynEdu-HEDL y luego las evaluó con estudiantes reales. Los modelos de alerta temprana entrenados con datos sintéticos fueron casi tan precisos en identificar estudiantes en riesgo como los modelos entrenados directamente con datos reales, a menudo dentro de unos pocos puntos porcentuales. Los análisis de clúster siguieron encontrando grupos significativos de aprendices, y los modelos que predicen calificaciones o estiman el efecto de cambios pedagógicos se comportaron de forma similar. Quizá lo más llamativo fue que, cuando los modelos se entrenaron primero con SynEdu-HEDL y luego se ajustaron ligeramente con solo una pequeña porción de datos reales, su rendimiento aumentó notablemente, una señal prometedora para las instituciones que no pueden compartir o agrupar fácilmente conjuntos de datos completos.

Qué significa esto para la investigación futura sobre aprendizaje

Para los lectores, la conclusión clave es que quizá ya no tengamos que elegir entre proteger a los estudiantes y avanzar en el conocimiento sobre cómo aprenden. SynEdu-HEDL demuestra que es posible construir un sustituto detallado y compartible de los datos educativos reales que mantiene a los estudiantes individuales a salvo y, al mismo tiempo, admite análisis rigurosos. Al poner a disposición de forma gratuita este conjunto de datos sintéticos y su código, el trabajo ofrece una herramienta práctica para estudios abiertos y reproducibles y una plantilla para otras instituciones. Si se adopta y refina de forma generalizada, este tipo de datos sintéticos conscientes de la privacidad podría ayudar a educadores de todo el mundo a probar nuevas ideas, mejorar el apoyo a estudiantes vulnerables y comparar enfoques entre campus sin exponer la historia personal de nadie.

Cita: Agal, S. A privacy preserving synthetic learner dataset for learning analytics in technology enhanced higher education. Sci Rep 16, 14772 (2026). https://doi.org/10.1038/s41598-026-44990-8

Palabras clave: analítica del aprendizaje, datos sintéticos, privacidad estudiantil, educación superior, datos educativos