Clear Sky Science · de

Ein datenschutzfreundliches synthetisches Lernerdatenset für Learning Analytics in technologiegestützter Hochschulbildung

2026-03-23 · Zurück zur Übersicht

Warum Studierendendaten ohne Datenschutzrisiken wichtig sind

Universitäten sammeln heute enorme Mengen an Klick-für-Klick-Informationen darüber, wie Studierende online lernen – von Logins und Videoansichten bis zu Forumseinträgen und Quizwertungen. Diese Daten könnten Lehrenden helfen, gefährdete Studierende früh zu erkennen und bessere Kurse zu gestalten, doch die Weitergabe außerhalb der Hochschule ist durch Datenschutzrecht und Ethik stark eingeschränkt. Dieser Artikel beschreibt einen neuen Weg, diesen Wert nutzbar zu machen: ein großes, realistisches, aber vollständig fiktives Studierendendatenset, das darauf abzielt, Personen zu schützen und gleichzeitig ernsthafte Forschung zu ermöglichen.

Figure 1. Wie fingierte Studierendendaten reale Lernmuster nachbilden können und dabei die Privatsphäre schützen

Die Idee sicherer, nachgebildeter Studierendenakten

Die Studie stellt SynEdu-HEDL vor, eine Sammlung von 20.000 künstlichen Studierendendatensätzen, die reale Hochschuldaten nachbilden sollen, ohne tatsächliche Lernende zu enthalten. Jeder Datensatz bündelt Hintergrundinformationen, wöchentliches Online-Verhalten über ein 16-wöchiges Semester und abschließende Kursresultate. Ziel ist es, dass für die Bildung relevante Muster in diesen erfundenen Daten erhalten bleiben – etwa wie konstante Beteiligung mit Noten zusammenhängt –, während jede Spur einer realen Person ausgelöscht wird. Durch die offene Veröffentlichung des Datensets hofft die Autorin, Forschenden einen gemeinsamen Spielraum für das Testen von Ideen zu geben, ohne auf sensible Originaldaten zugreifen zu müssen.

Wie die synthetischen Studierenden erzeugt werden

Zum Aufbau von SynEdu-HEDL arbeitete die Forscherin zunächst mit einer großen staatlichen Universität zusammen, die bereits reichhaltige Online-Lernaktivitäten über Hunderte von Kursen hinweg erfasst. Nach strenger ethischer Prüfung wurden die realen Daten bereinigt, vereinfacht und von direkten Identifikatoren befreit. Anschließend kam eine mehrstufige Generierungspipeline zum Einsatz. Ein Teil des Systems modelliert statische Informationen wie Altersklasse oder Studienfach, ein anderer lernt, wie sich Lernverhalten über die Wochen des Semesters verändert, und ein dritter stellt sicher, dass Verhalten und Ergebnisse weiterhin sinnvoll miteinander korrelieren. Dabei wird durchgängig sorgfältig kalibrierte Zufälligkeit eingeführt, sodass sich die Spur einzelner Personen nicht rekonstruieren lässt, während typische Lernpfade sichtbar bleiben.

Figure 2. Wie Muster realen Studienverhaltens in datenschutzkonforme synthetische Daten überführt werden

Privatsphäre stark halten und zugleich nützlich bleiben

Datenschutz zu gewährleisten bedeutet mehr, als nur Namen zu entfernen. Das Team testete SynEdu-HEDL gegen eine Reihe simulierter Angriffe, die versuchen, zu erraten, ob eine bestimmte Person in den Originaldaten enthalten war oder ihr Profil zu rekonstruieren. Diese Angriffe schnitten nicht besser ab als Zufallsraten, und formale mathematische Prüfungen zeigen, dass das Datenset eine strenge Definition des Privatsphärenrisikos erfüllt. Gleichzeitig verglich die Autorin Hunderte von Statistiken zwischen den realen und den synthetischen Daten. Grundlegende Verteilungen, Beziehungen zwischen Variablen und die Formen des Engagements über die Zeit stimmten eng überein, einschließlich seltener, aber bedeutsamer Muster wie plötzlicher Aktivitätsrückgänge vor dem Nichtbestehen.

Können Forschende Ergebnissen aus gefälschten Daten vertrauen

Um zu prüfen, ob die synthetischen Datensätze tatsächlich nützlich sind, baute die Studie gängige Learning-Analytics-Werkzeuge mit SynEdu-HEDL nach und testete sie anschließend an realen Studierenden. Frühwarnmodelle, die mit synthetischen Daten trainiert wurden, waren fast ebenso genau darin, gefährdete Studierende zu identifizieren wie Modelle, die direkt mit realen Daten trainiert wurden – oft nur wenige Prozentpunkte entfernt. Clusteranalysen identifizierten weiterhin sinnvolle Lerngruppen, und Modelle zur Vorhersage von Noten oder zur Abschätzung der Wirkung von Lehränderungen verhielten sich ähnlich. Besonders bemerkenswert war, dass Modelle, die zuerst mit SynEdu-HEDL trainiert und dann nur leicht mit einem kleinen Ausschnitt realer Daten feinjustiert wurden, einen deutlichen Leistungssprung zeigten – ein vielversprechendes Ergebnis für Hochschulen, die vollständige Datensätze nicht leicht teilen oder zusammenführen können.

Was das für die zukünftige Lernforschung bedeutet

Für die Lesenden lautet die wichtigste Erkenntnis: Wir müssen nicht länger zwischen dem Schutz von Studierenden und dem Fortschritt des Wissens darüber, wie sie lernen, wählen. SynEdu-HEDL zeigt, dass es möglich ist, einen detaillierten, teilbaren Ersatz für reale Bildungsdaten zu erstellen, der einzelne Studierende schützt und dennoch ernsthafte Analysen erlaubt. Indem dieses synthetische Datenset und der zugehörige Code frei verfügbar gemacht werden, bietet die Arbeit ein praktisches Werkzeug für offene, reproduzierbare Studien und eine Vorlage für andere Institutionen. Wenn solche datenschutzbewussten synthetischen Daten breit angenommen und weiter verfeinert werden, könnten sie Lehrenden weltweit helfen, neue Ansätze zu testen, unterstützungsbedürftige Studierende besser zu fördern und Vergleichsstudien über Hochschulen hinweg durchzuführen, ohne persönliche Verläufe preiszugeben.

Zitation: Agal, S. A privacy preserving synthetic learner dataset for learning analytics in technology enhanced higher education. Sci Rep 16, 14772 (2026). https://doi.org/10.1038/s41598-026-44990-8

Schlüsselwörter: learning analytics, synthetische Daten, Datenschutz für Studierende, Hochschulbildung, Bildungsdaten