Clear Sky Science · es
Datos abiertos, estudiantes privados: un conjunto de datos desidentificado de actividad y rendimiento estudiantil para analítica del aprendizaje
Por qué importan tus hábitos de estudio en línea
Cada vez que un estudiante inicia sesión en un curso en línea, hace clic en las diapositivas de una clase o lee una publicación en un foro, deja un rastro de huellas digitales. Esas trazas pueden revelar quién tiene dificultades, quién avanza sin esfuerzo y qué estrategias docentes realmente ayudan. Pero también son profundamente personales. Este artículo describe un gran conjunto de datos, cuidadosamente anonimizado, sobre el comportamiento de estudiantes universitarios en el aprendizaje en línea que pretende desbloquear ideas para una mejor enseñanza—sin exponer a los aprendices individuales.

De los clics en el aula al oro para la investigación
El conjunto de datos proviene de estudiantes de primer año de negocios en la KU Leuven que cursaron dos asignaturas introductorias—Contabilidad y Economía Global—a lo largo de tres años académicos, incluida la etapa de la pandemia de COVID-19 cuando gran parte de la enseñanza pasó a formato en línea. Los cursos dependían mucho de un sistema de gestión del aprendizaje, donde los estudiantes accedían a lecturas, diapositivas, cuestionarios y foros de discusión. Cada interacción, como abrir un archivo o ver un hilo del foro, se registraba con una marca temporal. Combinados con los resultados de los exámenes, estos registros ofrecen una imagen rica de cómo estudian realmente los estudiantes durante semanas y meses, en lugar de limitarse a cómo rinden el día del examen.
Proteger a los estudiantes mientras se comparten datos
Compartir este tipo de información plantea serias preocupaciones de privacidad: los registros en bruto contienen identificadores únicos de estudiantes, calificaciones exactas y tiempos precisos de actividad que podrían permitir la reidentificación de individuos. Para evitarlo, los autores aplicaron varias capas de desidentificación antes de publicar el conjunto de datos. Los identificadores de los estudiantes se reemplazaron por códigos aleatorios y se destruyó el vínculo con las identidades reales. Las puntuaciones de los exámenes no se compartieron como números exactos, sino agrupadas en rangos amplios como suspenso, en el límite, aprobado o excelente. Se eliminaron detalles sobre el programa de estudios específico de cada estudiante, y los ítems de contenido en la plataforma en línea se asignaron a tipos generales como material del curso o evaluaciones en lugar de conservar sus nombres de archivo originales.

Difuminar detalles sin perder la historia
Simplemente eliminar nombres no es suficiente para garantizar una privacidad robusta, por lo que el equipo también ajustó cómo aparecen el tiempo y la estructura en los datos. Por ejemplo, añadieron un pequeño desplazamiento aleatorio de unos segundos a las marcas temporales de cada estudiante. Esto dificulta mucho emparejar registros con eventos del mundo real a la vez que preserva el orden de las acciones, algo crucial para estudiar patrones de aprendizaje. Las publicaciones en foros, los identificadores de sesión y los ID de contenido se renumeraron aleatoriamente. Los investigadores comprobaron después cuán anónimos eran realmente los datos usando una medida estándar llamada k-anonimidad, que evalúa cuántos estudiantes comparten la misma combinación de características. En la mayoría de los casos, los datos transformados hicieron que los individuos se mezclaran en grupos más grandes, aumentando la protección de la privacidad.
¿Sigue contando la verdad el conjunto de datos?
Por supuesto, la anonimización solo es útil si los datos permanecen lo bastante realistas para apoyar una investigación sólida. Para comprobarlo, los autores reconstruyeron docenas de características de aprendizaje que estudios anteriores habían usado para detectar patrones de estudio inusuales y predecir el éxito en los exámenes. Estas características incluyen con qué frecuencia inician sesión los estudiantes, cómo distribuyen sus sesiones de estudio a lo largo del semestre y cuán activamente usan los foros. El equipo comparó las distribuciones de cada característica en los datos originales y en los desidentificados usando pruebas estadísticas. En casi todos los casos, las dos versiones eran indistinguibles, lo que significa que las medidas de privacidad no distorsionaron la historia general de cómo los estudiantes estudian en línea. Las diferencias menores provenían mayormente de una mejora en la categorización de tipos de contenido, no de las medidas de privacidad en sí.
Qué pueden hacer los investigadores con esto
Dado que el conjunto de datos cubre dos asignaturas distintas y tres años—incluida la gran interrupción de la pandemia—puede usarse para examinar qué tan bien se sostienen los hallazgos a través de materias, cohortes y condiciones cambiantes. La información temporal fina permite estudios de minería de procesos que trazan las vías típicas a través de los materiales del curso, mientras que los ricos registros de los foros pueden sustentar análisis de redes sociales sobre la interacción entre pares. Los autores también ofrecen código para reconstruir características de aprendizaje, lo que facilita comparar nuevos modelos y métodos con trabajos existentes y explorar la inteligencia artificial explicable en educación.
Abrir puertas sin abrir identidades
En términos cotidianos, este artículo muestra que es posible aprender mucho de cómo los estudiantes hacen clic y se desplazan por los cursos en línea sin exponer quiénes son. Al enmascarar de forma reflexiva los detalles personales mientras se preservan los patrones que importan, los autores ofrecen un recurso público que puede ayudar a las universidades a entender y mejorar el aprendizaje a gran escala. Para los estudiantes, eso puede significar un apoyo más inteligente y una enseñanza más receptiva—construidos sobre datos, pero sin costo para su privacidad.
Cita: Tiukhova, E., Van Landuyt, D., Baesens, B. et al. Open data, private learners: a de-identified student activity and performance dataset for learning analytics. Sci Data 13, 548 (2026). https://doi.org/10.1038/s41597-026-06821-3
Palabras clave: analítica del aprendizaje, privacidad estudiantil, datos educativos, aprendizaje en línea, anonimización de datos