Clear Sky Science · fr
Données ouvertes, apprenants privés : un ensemble de données d'activités et de performances étudiantes dé-identifié pour l'analytique de l'apprentissage
Pourquoi vos habitudes d'étude en ligne comptent
Chaque fois qu'un étudiant se connecte à un cours en ligne, clique sur des diapositives de cours ou lit un message de forum, il laisse derrière lui une trace numérique. Ces traces peuvent révéler qui rencontre des difficultés, qui avance sans effort et quelles stratégies pédagogiques sont réellement utiles. Mais elles sont aussi profondément personnelles. Cet article décrit un vaste ensemble de données, soigneusement anonymisé, sur le comportement d'apprentissage en ligne d'étudiants universitaires, destiné à dégager des enseignements pour améliorer l'enseignement—sans exposer les apprenants individuellement.

Des clics en classe à l'or pour la recherche
L'ensemble de données provient d'étudiants de première année en commerce à la KU Leuven qui ont suivi deux cours d'introduction—Comptabilité et Économie mondiale—sur trois années académiques, y compris la période de la pandémie de COVID-19 lorsque beaucoup d'enseignements sont passés en ligne. Les cours reposaient largement sur un système de gestion de l'apprentissage, où les étudiants accédaient à des lectures, des diapositives, des quiz et des forums de discussion. Chaque interaction, comme l'ouverture d'un fichier ou la consultation d'un fil de discussion, était enregistrée avec un horodatage. Croisés avec les résultats d'examen, ces journaux offrent un tableau riche de la façon dont les étudiants étudient réellement sur des semaines et des mois, plutôt que de se limiter à leurs performances le jour des examens.
Protéger les étudiants tout en partageant les données
Partager ce type d'information soulève de graves préoccupations en matière de vie privée : les enregistrements bruts contiennent des identifiants uniques d'étudiants, des notes exactes et des heures précises d'activité qui pourraient permettre de réidentifier des personnes. Pour éviter cela, les auteurs ont appliqué plusieurs couches de dé-identification avant de publier l'ensemble de données. Les identifiants étudiants ont été remplacés par des codes aléatoires et le lien vers les identités réelles a été détruit. Les scores d'examen n'ont pas été partagés comme des nombres exacts mais regroupés en grandes catégories telles qu'échec, limite, réussite ou excellent. Les détails sur le programme d'études spécifique d'un étudiant ont été supprimés, et les éléments de contenu de la plateforme en ligne ont été affectés à des types généraux comme matériel de cours ou évaluations plutôt que de conserver leurs noms de fichiers originaux.

Flouter les détails sans perdre l'histoire
Se contenter de supprimer les noms n'est pas suffisant pour garantir une forte confidentialité, aussi l'équipe a-t-elle ajusté la manière dont le temps et la structure apparaissent dans les données. Par exemple, ils ont ajouté un léger décalage aléatoire de quelques secondes aux horodatages de chaque étudiant. Cela rend beaucoup plus difficile l'appariement des journaux avec des événements du monde réel tout en préservant l'ordre des actions, ce qui est crucial pour étudier les schémas d'apprentissage. Les messages de forum, les identifiants de session et les identifiants de contenu ont tous été renumérotés aléatoirement. Les chercheurs ont ensuite vérifié à quel point le résultat était réellement anonyme en utilisant une mesure standard appelée k-anonymat, qui examine combien d'étudiants partagent la même combinaison de caractéristiques. Dans la plupart des cas, les données transformées ont fait en sorte que les individus se fondent dans des groupes plus larges, renforçant la protection de la vie privée.
Les données racontent-elles toujours la vérité ?
Bien sûr, l'anonymisation n'a de valeur que si les données restent suffisamment réalistes pour soutenir des recherches solides. Pour le vérifier, les auteurs ont reconstruit des dizaines de caractéristiques d'apprentissage que des études antérieures utilisaient pour détecter des schémas d'étude atypiques et prédire la réussite aux examens. Ces caractéristiques incluent la fréquence de connexion des étudiants, la régularité de leurs séances d'étude sur le semestre et leur activité sur les forums. L'équipe a comparé les distributions de chaque caractéristique dans les données originales et dé-identifiées à l'aide de tests statistiques. Dans presque tous les cas, les deux versions étaient indiscernables, ce qui signifie que les mesures de protection de la vie privée n'ont pas déformé le récit global de la manière dont les étudiants étudient en ligne. Les différences mineures provenaient principalement d'une meilleure catégorisation des types de contenu, et non des mesures de confidentialité elles-mêmes.
Ce que les chercheurs peuvent en faire
Parce que l'ensemble de données couvre deux cours différents et trois années—y compris la perturbation majeure de la pandémie—il peut être utilisé pour examiner la robustesse des résultats à travers les matières, les cohortes et les conditions changeantes. L'information temporelle fine permet des études de process mining qui retracent les parcours typiques à travers les ressources du cours, tandis que les riches enregistrements de forums peuvent soutenir des analyses de réseaux sociaux sur l'interaction entre pairs. Les auteurs fournissent également du code pour reconstruire les caractéristiques d'apprentissage, ce qui facilite la comparaison de nouveaux modèles et méthodes avec les travaux existants et l'exploration d'une intelligence artificielle explicable en éducation.
Ouvrir des portes sans révéler des identités
En termes concrets, cet article montre qu'il est possible d'apprendre beaucoup de choses à partir de la manière dont les étudiants cliquent et font défiler des cours en ligne sans révéler qui ils sont. En masquant soigneusement les détails personnels tout en préservant les motifs importants, les auteurs offrent une ressource publique qui peut aider les universités à comprendre et améliorer l'apprentissage à grande échelle. Pour les étudiants, cela peut signifier un soutien plus intelligent et un enseignement plus réactif—fondés sur les données, mais sans sacrifier leur vie privée.
Citation: Tiukhova, E., Van Landuyt, D., Baesens, B. et al. Open data, private learners: a de-identified student activity and performance dataset for learning analytics. Sci Data 13, 548 (2026). https://doi.org/10.1038/s41597-026-06821-3
Mots-clés: analytique de l'apprentissage, vie privée des étudiants, données éducatives, apprentissage en ligne, anonymisation des données