Clear Sky Science · nl
Open data, private learners: een gedecodeerde dataset van studentactiviteiten en -prestaties voor learning analytics
Waarom je online studiegewoonten ertoe doen
Elke keer dat een student inlogt op een online cursus, op slides klikt of een bericht in een discussie leest, laten ze een spoor van digitale voetafdrukken achter. Deze sporen kunnen onthullen wie moeite heeft, wie moeiteloos door de stof gaat en welke onderwijsstrategieën echt helpen. Maar ze zijn ook uiterst persoonlijk. Dit artikel beschrijft een grote, zorgvuldig geanonimiseerde dataset van universiteitsstudenten’ online leeractiviteiten die bedoeld is om inzichten voor beter onderwijs te ontsluiten—zonder individuele lerenden bloot te stellen.

Van klaslokaalklikken tot onderzoeksrijkdom
De dataset is afkomstig van eerstejaarsstudenten bedrijfskunde aan KU Leuven die twee inleidende vakken volgden—Accountancy en Global Economics—gedurende drie academische jaren, inclusief de COVID-19-pandemieperiode waarin veel onderwijs online plaatsvond. De cursussen leunden sterk op een learning management system, waar studenten toegang hadden tot leesmateriaal, slides, quizzen en discussiefora. Elke interactie, zoals het openen van een bestand of het bekijken van een forumdraad, werd met een tijdstempel vastgelegd. In combinatie met tentamenresultaten bieden deze logs een rijk beeld van hoe studenten daadwerkelijk studeren over weken en maanden, in plaats van alleen hoe ze presteren op de dag van de toets.
Studenten beschermen bij het delen van data
Het delen van dit soort informatie roept serieuze privacyzorgen op: ruwe gegevens bevatten unieke studentidentificaties, exacte cijfers en precieze tijdstippen van activiteit die het mogelijk zouden maken individuen te herleiden. Om dit te voorkomen pasten de auteurs meerdere lagen van de-identificatie toe voordat ze de dataset publiceerden. Student-ID’s werden vervangen door willekeurige codes en de koppeling naar echte identiteiten werd vernietigd. Tentamencijfers werden niet als exacte nummers gedeeld maar ingedeeld in brede categorieën zoals gezakt, twijfelachtig, geslaagd of uitmuntend. Details over het specifieke studieprogramma van een student werden verwijderd, en contentitems op het online platform werden toegewezen aan algemene typen zoals cursusmateriaal of toetsen in plaats van hun oorspronkelijke bestandsnamen te behouden.

Details vervagen zonder het verhaal te verliezen
Alleen namen weghalen is niet voldoende voor sterke privacy, dus het team paste ook aan hoe tijd en structuur in de data naar voren komen. Zo voegden ze een kleine, willekeurige verschuiving van enkele seconden toe aan de tijdstempels van elke student. Dat maakt het veel moeilijker om logs aan echte gebeurtenissen te koppelen, terwijl de volgorde van acties behouden blijft—wat cruciaal is voor het bestuderen van leerpatronen. Forumberichten, sessie-identificaties en content-ID’s werden allemaal willekeurig opnieuw genummerd. De onderzoekers controleerden vervolgens hoe anoniem het resultaat werkelijk was met een standaardmaat genaamd k-anonimiteit, die kijkt naar hoeveel studenten dezelfde combinatie van kenmerken delen. In de meeste gevallen zorgden de getransformeerde gegevens ervoor dat individuen opgingen in grotere groepen, waardoor de privacybescherming toenam.
Zegt de data nog steeds de waarheid?
Natuurlijk is anonimisering alleen nuttig als de data realistisch genoeg blijft om degelijk onderzoek te ondersteunen. Om dit te testen bouwden de auteurs tientallen leerfeatures opnieuw op die eerdere studies gebruikten om afwijkende studiepatronen te detecteren en tentamensucces te voorspellen. Deze features omvatten hoe vaak studenten inloggen, hoe gelijkmatig ze hun studiesessies over het semester spreiden, en hoe actief ze forums gebruiken. Het team vergeleek de verdelingen van elke feature in de originele en de-geïdentificeerde data met statistische tests. In bijna alle gevallen waren de twee versies niet van elkaar te onderscheiden, wat betekent dat de privacystappen het algemene beeld van hoe studenten online studeren niet vervormden. Kleine verschillen ontstonden vooral door verbeteringen in hoe contenttypes werden gecategoriseerd, niet door de privacymaatregelen zelf.
Wat onderzoekers ermee kunnen doen
Omdat de dataset twee verschillende cursussen en drie jaren omvat—waaronder de ingrijpende verstoring door de pandemie—kan hij worden gebruikt om te onderzoeken hoe goed bevindingen standhouden over vakken, cohorten en veranderende omstandigheden heen. De fijnmazige tijdsinformatie ondersteunt process-miningstudies die typische paden door cursusmateriaal in kaart brengen, terwijl rijke forumnotities sociale-netwerkanalyses van peerinteractie kunnen onderbouwen. De auteurs bieden ook code om leerfeatures opnieuw op te bouwen, wat het gemakkelijker maakt nieuwe modellen en methoden te vergelijken met bestaand werk en explainable artificial intelligence in het onderwijs te verkennen.
Deuren openen zonder identiteiten te onthullen
In gewone bewoordingen toont dit artikel aan dat het mogelijk is veel te leren van hoe studenten klikken en scrollen door online cursussen zonder te onthullen wie ze zijn. Door persoonlijke details doordacht te maskeren terwijl de patronen die ertoe doen behouden blijven, bieden de auteurs een publieke bron die universiteiten kan helpen leren op schaal te begrijpen en te verbeteren. Voor studenten kan dat slimmer ondersteuning en responsiever onderwijs betekenen—gebouwd op data, maar niet ten koste van hun privacy.
Bronvermelding: Tiukhova, E., Van Landuyt, D., Baesens, B. et al. Open data, private learners: a de-identified student activity and performance dataset for learning analytics. Sci Data 13, 548 (2026). https://doi.org/10.1038/s41597-026-06821-3
Trefwoorden: learning analytics, studentenprivacy, onderwijsdata, online leren, data-anonimisering