Clear Sky Science · de
Offene Daten, private Lernende: ein de-identifiziertes Datenset zu Studentenaktivitäten und -leistungen für Learning Analytics
Warum Ihre Online-Lerngewohnheiten wichtig sind
Jedes Mal, wenn ein Studierender sich in einen Online-Kurs einloggt, auf Vorlesungsfolien klickt oder einen Diskussionsbeitrag liest, hinterlässt er eine Spur digitaler Fußabdrücke. Diese Spuren können zeigen, wer Schwierigkeiten hat, wer mühelos durchkommt und welche Lehrstrategien tatsächlich helfen. Gleichzeitig sind sie aber auch hochgradig persönlich. Dieser Artikel beschreibt ein großes, sorgfältig anonymisiertes Datenset zum Online-Lernverhalten von Universitätsstudierenden, das Erkenntnisse für bessere Lehre zugänglich machen soll—ohne einzelne Lernende offenzulegen.

Von Klicks im Kursraum zu Forschungsschätzen
Das Datenset stammt von Erstsemester-BWL-Studierenden der KU Leuven, die über drei Studienjahre hinweg zwei Einführungskurse besuchten—Rechnungswesen und Globale Ökonomie—einschließlich der COVID-19-Pandemiephase, in der ein großer Teil der Lehre online stattfand. Die Kurse bauten stark auf ein Learning-Management-System, in dem Studierende auf Lesematerialien, Folien, Quizze und Diskussionsforen zugriffen. Jede Interaktion, etwa das Öffnen einer Datei oder das Ansehen eines Forenthreads, wurde mit einem Zeitstempel protokolliert. In Kombination mit Prüfungsergebnissen liefern diese Logs ein reichhaltiges Bild davon, wie Studierende tatsächlich über Wochen und Monate lernen—nicht nur, wie sie am Prüfungstag abschneiden.
Schutz der Studierenden bei gleichzeitiger Datenfreigabe
Die Weitergabe solcher Informationen wirft ernste Datenschutzfragen auf: Rohdaten enthalten eindeutige Studierendenkennungen, exakte Noten und präzise Aktivitätszeiten, die eine Re-Identifikation ermöglichen könnten. Um dies zu verhindern, haben die Autoren mehrere Schichten der De-Identifikation angewandt, bevor das Datenset veröffentlicht wurde. Studierenden-IDs wurden durch zufällige Codes ersetzt und die Rückverknüpfung zu realen Identitäten zerstört. Prüfungsergebnisse wurden nicht als exakte Zahlen geteilt, sondern in breite Kategorien wie durchgefallen, knapp bestanden, bestanden oder sehr gut eingeteilt. Angaben zum konkreten Studienprogramm wurden entfernt, und Inhaltsobjekte auf der Plattform wurden allgemeinen Typen wie Kursmaterial oder Prüfungen zugewiesen, statt ihre ursprünglichen Dateinamen zu belassen.

Details verwischen, ohne die Aussage zu verlieren
Allein das Entfernen von Namen reicht für starken Datenschutz nicht aus, daher passte das Team auch Zeit- und Strukturangaben in den Daten an. Beispielsweise fügten sie jedem Zeitstempel eine winzige, zufällige Verschiebung von einigen Sekunden hinzu. Das erschwert es deutlich, Logs mit realen Ereignissen abzugleichen, während die Reihenfolge der Aktionen erhalten bleibt—ein wichtiger Faktor beim Studium von Lernmustern. Forenbeiträge, Sitzungskennungen und Inhalts-IDs wurden alle zufällig neu durchnummeriert. Die Forschenden überprüften anschließend die Anonymitätsergebnisse mit einer standardisierten Metrik namens k-Anonymität, die betrachtet, wie viele Studierende dieselbe Kombination von Merkmalen teilen. In den meisten Fällen führte die Transformation dazu, dass Individuen in größere Gruppen eintauchten, wodurch der Datenschutz deutlich verbessert wurde.
Erzählen die Daten weiterhin die Wahrheit?
Anonymisierung ist natürlich nur dann nützlich, wenn die Daten realistisch genug bleiben, um belastbare Forschung zu unterstützen. Um das zu prüfen, bauten die Autoren Dutzende von Lernmerkmalen nach, die frühere Studien verwendet hatten, um ungewöhnliche Lernmuster zu erkennen und Prüfungserfolg vorherzusagen. Zu diesen Merkmalen gehören etwa die Häufigkeit von Logins, wie gleichmäßig Studierende ihre Lernsitzungen über das Semester verteilen und wie aktiv sie Foren nutzen. Das Team verglich die Verteilungen jeder Kennzahl in den Original- und den de-identifizierten Daten mit statistischen Tests. In fast allen Fällen waren die beiden Versionen nicht voneinander zu unterscheiden, was bedeutet, dass die Datenschutzmaßnahmen die Gesamterzählung darüber, wie Studierende online lernen, nicht verzerrt haben. Kleine Unterschiede ergaben sich hauptsächlich durch eine verbesserte Kategorisierung von Inhaltstypen und nicht durch die Datenschutzmaßnahmen selbst.
Was Forschende damit anstellen können
Da das Datenset zwei verschiedene Kurse und drei Jahre—einschließlich der massiven Störung durch die Pandemie—abdeckt, lässt es sich nutzen, um zu prüfen, wie gut Befunde über Fächer, Kohorten und veränderte Bedingungen hinweg Bestand haben. Die feingranularen Zeitinformationen unterstützen Prozess-Mining-Studien, die typische Pfade durch Kursmaterialien nachzeichnen, während detaillierte Forenaufzeichnungen soziale Netzwerkanalysen zu Peer-Interaktion ermöglichen. Die Autorinnen und Autoren stellen außerdem Code zur Verfügung, um Lernmerkmale nachzubauen, wodurch es einfacher wird, neue Modelle und Methoden gegen bestehende Arbeiten zu vergleichen und erklärbare KI in der Bildung zu erforschen.
Türen öffnen, ohne Identitäten preiszugeben
Alltäglich gesprochen zeigt dieser Artikel, dass es möglich ist, viel darüber zu lernen, wie Studierende durch Online-Kurse klicken und scrollen, ohne preiszugeben, wer sie sind. Indem persönliche Details durchdacht maskiert und zugleich die relevanten Muster bewahrt werden, bieten die Autorinnen und Autoren eine öffentliche Ressource, die Universitäten helfen kann, Lernen in großem Maßstab zu verstehen und zu verbessern. Für Studierende kann das bedeuten: intelligentere Unterstützung und reaktionsfähigere Lehre—auf Basis von Daten, aber nicht zulasten ihrer Privatsphäre.
Zitation: Tiukhova, E., Van Landuyt, D., Baesens, B. et al. Open data, private learners: a de-identified student activity and performance dataset for learning analytics. Sci Data 13, 548 (2026). https://doi.org/10.1038/s41597-026-06821-3
Schlüsselwörter: learning analytics, Studentenschutz, Bildungsdaten, Online-Lernen, Datenanonymisierung