Clear Sky Science · pl

Otwartych danych, prywatnych uczących się: zanonimizowany zestaw danych aktywności i wyników studentów do analityki nauczania

· Powrót do spisu

Dlaczego twoje zwyczaje nauki online mają znaczenie

Za każdym razem, gdy student loguje się na kurs online, klika slajdy wykładu lub czyta wpis na forum dyskusyjnym, zostawia ślad cyfrowy. Te ślady mogą ujawnić, kto ma trudności, kto radzi sobie bez problemu i które strategie nauczania naprawdę działają. Są jednak też głęboko osobiste. Artykuł opisuje duży, starannie zanonimizowany zestaw danych zachowań studentów w sieci, którego celem jest umożliwienie wnioskowania na rzecz lepszego nauczania — bez ujawniania tożsamości poszczególnych uczących się.

Figure 1
Figure 1.

Od kliknięć w klasie po materiał badawczy

Zestaw danych pochodzi od studentów pierwszego roku kierunków biznesowych na KU Leuven, którzy uczestniczyli w dwóch kursach wprowadzających — Rachunkowość i Globalna Ekonomia — w ciągu trzech lat akademickich, w tym w okresie pandemii COVID-19, kiedy znaczna część nauczania przeniosła się do sieci. Kursy opierały się w dużej mierze na systemie zarządzania nauczaniem, w którym studenci otwierali materiały do czytania, slajdy, quizy i fora dyskusyjne. Każda interakcja, taka jak otwarcie pliku czy obejrzenie wątku forum, była rejestrowana z sygnaturą czasową. W połączeniu z wynikami egzaminów te logi dają bogaty obraz tego, jak studenci faktycznie uczą się przez tygodnie i miesiące, a nie tylko jak wypadają w dniu testu.

Ochrona studentów przy udostępnianiu danych

Udostępnianie tego rodzaju informacji rodzi poważne obawy dotyczące prywatności: surowe zapisy zawierają unikatowe identyfikatory studentów, dokładne oceny i precyzyjne czasy aktywności, które mogłyby umożliwić ponowną identyfikację osób. Aby temu zapobiec, autorzy zastosowali kilka warstw de-identyfikacji przed opublikowaniem zestawu danych. ID studentów zostały zastąpione losowymi kodami, a powiązanie z rzeczywistymi tożsamościami zostało zniszczone. Wyniki egzaminów nie zostały udostępnione jako dokładne liczby, lecz pogrupowane w szerokie przedziały, takie jak niezaliczone, graniczne, zaliczone czy doskonałe. Usunięto szczegóły dotyczące konkretnego programu studiów, a elementy treści na platformie przypisano do ogólnych typów, takich jak materiały kursowe czy oceny, zamiast zachowywać ich oryginalne nazwy plików.

Figure 2
Figure 2.

Rozmywanie szczegółów bez utraty sensu

Jedynie usunięcie nazwisk nie wystarcza dla silnej ochrony prywatności, dlatego zespół skorygował także sposób prezentacji czasu i struktury w danych. Na przykład dodano niewielkie, losowe przesunięcie o kilka sekund do sygnatur czasowych każdego studenta. Utrudnia to powiązanie logów z rzeczywistymi zdarzeniami, zachowując jednocześnie kolejność działań, co jest kluczowe przy badaniu wzorców uczenia się. Wątki forum, identyfikatory sesji i treści zostały ponumerowane losowo. Badacze sprawdzili następnie anonimowość wynikowego zbioru za pomocą standardowej miary zwanej k-anonimowością, która ocenia, ile osób dzieli tę samą kombinację cech. W większości przypadków przekształcone dane sprawiały, że jednostki stapiały się w większe grupy, zwiększając ochronę prywatności.

Czy dane wciąż mówią prawdę?

Oczywiście anonimizacja ma sens tylko wtedy, gdy dane pozostają wystarczająco realistyczne, by wspierać rzetelne badania. Aby to przetestować, autorzy odtworzyli dziesiątki cech uczenia, które wcześniejsze badania wykorzystywały do wykrywania nieregularnych wzorców nauki i przewidywania sukcesu na egzaminach. Cechy te obejmowały, jak często studenci logują się, jak równomiernie rozkładają sesje nauki w semestrze oraz jak aktywnie korzystają z forów. Zespół porównał rozkłady każdej cechy w oryginalnych i zdeidentyfikowanych danych, używając testów statystycznych. W niemal wszystkich przypadkach obie wersje były nie do odróżnienia, co oznacza, że kroki ochronne nie zniekształciły ogólnego obrazu tego, jak studenci uczą się online. Drobne różnice wynikały głównie z poprawy sposobu kategoryzacji typów treści, a nie z samych działań zabezpieczających prywatność.

Co badacze mogą z tym zrobić

Ponieważ zestaw danych obejmuje dwa różne kursy i trzy lata — w tym istotne zakłócenie związane z pandemią — można go wykorzystać do sprawdzenia, na ile wnioski utrzymują się między przedmiotami, kohortami i zmieniającymi się warunkami. Szczegółowe informacje czasowe wspierają badania typu process mining, które śledzą typowe ścieżki przez materiały kursowe, podczas gdy obszerne zapisy forów mogą posłużyć do analiz sieci społecznych dotyczących interakcji rówieśniczych. Autorzy udostępnili także kod do odtwarzania cech uczenia, ułatwiając porównywanie nowych modeli i metod z istniejącymi pracami oraz badania nad wyjaśnialną sztuczną inteligencją w edukacji.

Otwierając drzwi bez ujawniania tożsamości

Mówiąc prosto, artykuł pokazuje, że można wiele nauczyć się z tego, jak studenci klikają i przewijają kursy online, nie ujawniając przy tym ich tożsamości. Poprzez przemyślane zamaskowanie danych osobowych przy jednoczesnym zachowaniu istotnych wzorców, autorzy oferują zasób publiczny, który może pomóc uczelniom zrozumieć i ulepszyć nauczanie na dużą skalę. Dla studentów może to oznaczać mądrzejsze wsparcie i bardziej responsywne nauczanie — oparte na danych, ale bez naruszania prywatności.

Cytowanie: Tiukhova, E., Van Landuyt, D., Baesens, B. et al. Open data, private learners: a de-identified student activity and performance dataset for learning analytics. Sci Data 13, 548 (2026). https://doi.org/10.1038/s41597-026-06821-3

Słowa kluczowe: analityka nauczania, prywatność studentów, dane edukacyjne, nauka online, anonimizacja danych