Clear Sky Science · sv

Öppna data, privata studerande: en avidentifierad dataset över studenters aktivitet och prestation för lärandeanalys

· Tillbaka till index

Varför dina vanor för studier online spelar roll

Varje gång en student loggar in på en nätkurs, klickar på föreläsningsbilder eller läser ett inlägg i en diskussion lämnar hen kvar ett spår av digitala fotavtryck. Dessa spår kan avslöja vem som kämpar, vem som far fram lätt, och vilka undervisningsstrategier som faktiskt fungerar. Men de är också djupt personliga. Denna artikel beskriver en stor, noggrant avidentifierad dataset över universitetsstudenters beteende i onlinestudier som syftar till att öppna för insikter för bättre undervisning—utan att exponera enskilda studerande.

Figure 1
Figure 1.

Från klassrumsklick till forskningsguld

Datasettet kommer från företagsekonomistudenter på första året vid KU Leuven som läste två introduktionskurser—Redovisning och Global ekonomi—över tre läsår, inklusive perioden under COVID-19-pandemin när mycket undervisning flyttade online. Kurserna förlitade sig i stor utsträckning på ett lärplattformssystem där studenterna nådde texter, bilder, quiz och diskussionsforum. Varje interaktion, såsom att öppna en fil eller visa en forumtråd, loggades med tidsstämpel. I kombination med tentamensresultat ger dessa loggar en rik bild av hur studenter faktiskt studerar över veckor och månader, snarare än bara hur de presterar på tentamensdag.

Skydda studerande samtidigt som data delas

Att dela denna typ av information väcker allvarliga integritetsfrågor: råa poster innehåller unika studentidentifierare, exakta betyg och precisa tidpunkter för aktivitet som skulle kunna göra det möjligt att återidentifiera individer. För att förhindra detta applicerade författarna flera lager av avidentifiering innan datasetet publicerades. Student-ID ersattes med slumpmässiga koder och länken tillbaka till verkliga identiteter förstördes. Tentamenspoäng delades inte som exakta siffror utan grupperades i breda intervall såsom underkänd, gränsfall, godkänd eller utmärkt. Uppgifter om en students specifika studieprogram togs bort, och innehållsobjekt i plattformen tilldelades generella typer som kursmaterial eller bedömningar istället för att behålla sina ursprungliga filnamn.

Figure 2
Figure 2.

Sudda ut detaljer utan att förlora berättelsen

Att enbart ta bort namn räcker inte för starkt skydd, så teamet justerade också hur tid och struktur framträder i datan. Till exempel lade de till en liten, slumpmässig förskjutning på några sekunder till varje students tidsstämplar. Detta gör det mycket svårare att matcha loggar med verkliga händelser samtidigt som ordningen på handlingarna bevaras, vilket är avgörande för att studera lärandemönster. Foruminlägg, sessionsidentifierare och innehålls-ID:n räknades om slumpmässigt. Forskarna kontrollerade sedan hur anonymt resultatet verkligen var med hjälp av en standardmått kallat k-anonymitet, som ser på hur många studenter som delar samma kombination av egenskaper. I de flesta fall gjorde de transformerade data att individer smälte in i större grupper, vilket ökade integritetsskyddet.

Säger datan fortfarande sanningen?

Självklart är anonymisering bara användbar om datan förblir realistisk nog för att stödja robust forskning. För att testa detta byggde författarna upp dussintals lärandefunktioner som tidigare studier använt för att upptäcka avvikande studiemönster och förutsäga tentamensframgång. Dessa funktioner inkluderar hur ofta studenter loggar in, hur jämnt de sprider sina studietillfällen över terminen och hur aktivt de använder forum. Teamet jämförde fördelningarna för varje funktion i original- och avidentifierade data med statistiska tester. I nästan alla fall var de två versionerna omöjliga att särskilja, vilket betyder att integritetsåtgärderna inte förvrängde den övergripande bilden av hur studenter studerar online. Mindre skillnader kom mest från förbättrad kategorisering av innehållstyper, inte från integritetsåtgärderna i sig.

Vad forskare kan göra med det

Eftersom datasetet täcker två olika kurser och tre år—inklusive pandemins stora störning—kan det användas för att undersöka hur väl fynd håller över ämnen, kohorter och förändrade förhållanden. Den detaljerade tidsinformationen stödjer process-mining-studier som spårar typiska vägar genom kursmaterial, medan rika forumregister kan underbygga socialnätverksanalyser av kamratinteraktion. Författarna tillhandahåller också kod för att återbygga lärandefunktioner, vilket gör det enklare att jämföra nya modeller och metoder med befintligt arbete och att utforska förklarbar artificiell intelligens inom utbildning.

Öppna dörrar utan att öppna identiteter

I vardagliga termer visar denna artikel att det är möjligt att lära sig mycket av hur studenter klickar och scrollar genom nätkurser utan att exponera vem de är. Genom att genomtänkt maskera personliga detaljer samtidigt som de mönster som betyder något bevaras erbjuder författarna en offentlig resurs som kan hjälpa universitet att förstå och förbättra lärande i stor skala. För studenter kan det innebära smartare stöd och mer lyhörd undervisning—byggd på data, men inte på bekostnad av deras integritet.

Citering: Tiukhova, E., Van Landuyt, D., Baesens, B. et al. Open data, private learners: a de-identified student activity and performance dataset for learning analytics. Sci Data 13, 548 (2026). https://doi.org/10.1038/s41597-026-06821-3

Nyckelord: lärandeanalys, studentintegritet, utbildningsdata, onlinelärande, dataanonymisering