Clear Sky Science · it

Dati aperti, studenti privati: un dataset de-identificato sulle attività e le prestazioni degli studenti per l’analisi dell’apprendimento

2026-02-27 · Torna all'indice

Perché contano le tue abitudini di studio online

Ogni volta che uno studente accede a un corso online, clicca sulle slide di una lezione o legge un post in un forum, lascia dietro di sé una traccia digitale. Questi indizi possono rivelare chi sta incontrando difficoltà, chi procede senza sforzo e quali strategie didattiche sono davvero efficaci. Ma sono anche dati profondamente personali. Questo articolo descrive un ampio dataset, attentamente anonimizzato, sul comportamento di studenti universitari nell’apprendimento online, pensato per sbloccare intuizioni per una didattica migliore—senza esporre i singoli studenti.

Dai click in aula all’oro per la ricerca

Il dataset proviene da studenti del primo anno di Economia dell’Università KU Leuven che hanno seguito due corsi introduttivi—Contabilità ed Economia Globale—nell’arco di tre anni accademici, incluso il periodo della pandemia di COVID-19 quando gran parte dell’insegnamento si è spostata online. I corsi hanno fatto largo uso di un sistema di gestione dell’apprendimento, dove gli studenti accedevano a letture, slide, quiz e forum di discussione. Ogni interazione, come l’apertura di un file o la visualizzazione di un thread, è stata registrata con un timestamp. Integrati con i risultati d’esame, questi log forniscono un quadro ricco di come gli studenti effettivamente studiano nel corso di settimane e mesi, anziché limitarsi a come si comportano il giorno dell’esame.

Proteggere gli studenti condividendo i dati

Condividere questo tipo di informazioni solleva serie preoccupazioni di privacy: i record grezzi contengono identificatori univoci degli studenti, voti esatti e orari precisi delle attività che potrebbero rendere possibile la ri-identificazione degli individui. Per evitarlo, gli autori hanno applicato diversi livelli di de-identificazione prima di pubblicare il dataset. Gli ID degli studenti sono stati sostituiti con codici casuali e il collegamento alle identità reali è stato distrutto. I punteggi d’esame non sono stati condivisi come numeri esatti ma raggruppati in fasce ampie come insufficiente, borderline, sufficiente o ottimo. Sono stati rimossi dettagli sul corso di studio specifico dello studente, e gli elementi di contenuto sulla piattaforma online sono stati assegnati a tipi generali come materiale del corso o valutazioni, invece di mantenere i nomi originali dei file.

Sfumare i dettagli senza perdere il racconto

Eliminare i nomi non è sufficiente per garantire una forte privacy, quindi il team ha anche modificato come il tempo e la struttura appaiono nei dati. Ad esempio, hanno aggiunto un piccolo spostamento casuale di pochi secondi ai timestamp di ciascuno studente. Questo rende molto più difficile associare i log a eventi del mondo reale preservando però l’ordine delle azioni, fondamentale per studiare i modelli di apprendimento. Post nei forum, identificatori di sessione e ID dei contenuti sono stati tutti rinumerati casualmente. I ricercatori hanno poi verificato quanto fosse realmente anonimo il risultato utilizzando una misura standard chiamata k-anonymity, che valuta quante persone condividono la stessa combinazione di caratteristiche. Nella maggior parte dei casi, i dati trasformati hanno fatto sì che gli individui si confondessero in gruppi più ampi, aumentando la protezione della privacy.

I dati raccontano ancora la verità?

Naturalmente, l’anonimizzazione è utile solo se i dati restano abbastanza realistici da supportare ricerche solide. Per verificarlo, gli autori hanno ricostruito dozzine di caratteristiche di apprendimento che studi precedenti avevano usato per individuare pattern di studio atipici e prevedere il successo agli esami. Queste caratteristiche includono la frequenza di accesso, la distribuzione temporale delle sessioni di studio nel semestre e il livello di attività nei forum. Il team ha confrontato le distribuzioni di ciascuna caratteristica nei dati originali e in quelli de-identificati utilizzando test statistici. In quasi tutti i casi, le due versioni erano indistinguibili, il che significa che le misure di protezione della privacy non hanno distorto il quadro complessivo di come gli studenti studiano online. Le differenze minori derivavano per lo più dal miglioramento nella categorizzazione dei tipi di contenuto, non dalle misure di privacy in sé.

Cosa possono farci i ricercatori

Poiché il dataset copre due corsi diversi e tre anni—including la forte interruzione causata dalla pandemia—può essere usato per verificare quanto i risultati reggano attraverso materie, coorti e condizioni variabili. Le informazioni temporali dettagliate supportano studi di process-mining che tracciano i percorsi tipici attraverso i materiali del corso, mentre i ricchi record dei forum possono sostenere analisi di reti sociali sulle interazioni tra pari. Gli autori forniscono anche codice per ricostruire le feature di apprendimento, facilitando il confronto di nuovi modelli e metodi con lavori esistenti e l’esplorazione dell’intelligenza artificiale interpretabile in ambito educativo.

Aprire porte senza aprire identità

In termini pratici, questo articolo dimostra che è possibile ricavare molte informazioni da come gli studenti cliccano e scorrono nei corsi online senza rivelare chi sono. Mascherando con cura i dati personali e al contempo preservando i pattern rilevanti, gli autori offrono una risorsa pubblica che può aiutare le università a comprendere e migliorare l’apprendimento su larga scala. Per gli studenti, ciò potrebbe tradursi in un supporto più mirato e in una didattica più reattiva—basata sui dati, ma non a spese della loro privacy.

Citazione: Tiukhova, E., Van Landuyt, D., Baesens, B. et al. Open data, private learners: a de-identified student activity and performance dataset for learning analytics. Sci Data 13, 548 (2026). https://doi.org/10.1038/s41597-026-06821-3

Parole chiave: learning analytics, privacy degli studenti, dati educativi, apprendimento online, anonimizzazione dei dati