Clear Sky Science · ru

Открытые данные, личные учащиеся: деидентифицированный набор данных о действиях и успеваемости студентов для аналитики обучения

· Назад к списку

Почему важны ваши онлайн-учебные привычки

Каждый раз, когда студент входит в онлайн-курс, кликает по презентации или читает сообщение в дискуссии, он оставляет цифровой след. Эти следы могут показать, кто испытывает трудности, кто справляется легко и какие преподавательские приёмы действительно помогают. Но они также содержат личную информацию. В этой статье описывается большой, тщательно деидентифицированный набор данных о поведении студентов в сети, цель которого — дать полезные инсайты для улучшения обучения, не раскрывая личности отдельных учащихся.

Figure 1
Figure 1.

От кликов в классе к исследовательскому золоту

Набор данных собран среди первокурсников экономического факультета KU Leuven, которые посещали два вводных курса — бухучёт и глобальную экономику — в течение трёх академических лет, включая период пандемии COVID-19, когда большая часть обучения перешла в онлайн. Курсы сильно опирались на систему управления обучением, где студенты получали доступ к материалам, слайдам, викторинам и форумам. Каждое взаимодействие, например открытие файла или просмотр темы форума, фиксировалось с отметкой времени. В сочетании с результатами экзаменов эти логи дают подробную картину того, как студенты действительно учатся в течение недель и месяцев, а не только того, как они показывают себя в день экзамена.

Защита студентов при обмене данными

Обмен такого рода информацией вызывает серьёзные опасения по поводу приватности: сырые записи содержат уникальные идентификаторы студентов, точные оценки и точное время активности, что может позволить повторно определить личность. Чтобы избежать этого, авторы применили несколько слоёв деидентификации перед публикацией набора данных. Идентификаторы студентов были заменены случайными кодами, а связь с реальными личностями уничтожена. Баллы за экзамены не были опубликованы как точные числа, а сгруппированы в широкие диапазоны, такие как «неудовлетворительно», «на грани», «зачёт» или «отлично». Детали о конкретной учебной программе студента были удалены, а элементы содержимого на платформе отнесены к общим категориям, например учебный материал или оценочные задания, вместо сохранения исходных имён файлов.

Figure 2
Figure 2.

Размытие деталей без утраты смысла

Просто удалить имена — недостаточно для надёжной приватности, поэтому команда также изменила представление времени и структуры в данных. Например, к отметкам времени каждого студента добавлялся небольшой случайный сдвиг в несколько секунд. Это сильно затрудняет сопоставление логов с реальными событиями, при этом сохраняя порядок действий, что важно для изучения моделей обучения. Сообщения на форуме, идентификаторы сессий и идентификаторы содержимого были перенумерованы случайным образом. Затем исследователи проверили степень анонимности результата с помощью стандартной меры, называемой k-анонимностью, которая оценивает, сколько студентов разделяют одну и ту же комбинацию характеристик. В большинстве случаев преобразованные данные заставляли отдельных лиц «растворяться» в больших группах, повышая защиту конфиденциальности.

Сохраняет ли данные свою достоверность?

Конечно, анонимизация полезна только если данные остаются достаточно реалистичными для серьёзных исследований. Для проверки авторы воссоздали десятки признаков обучения, которые использовались в прежних работах для обнаружения необычных учебных паттернов и прогнозирования успеха на экзаменах. Среди этих признаков — частота входов в систему, равномерность распределения учебных сессий в течение семестра и активность на форумах. Команда сравнила распределения каждого признака в исходных и деидентифицированных данных с помощью статистических тестов. Практически во всех случаях две версии были неотличимы, что означает: меры по защите приватности не исказили общую картину того, как студенты учатся онлайн. Незначительные отличия в основном возникали из-за улучшений в категоризации типов контента, а не из-за самих мер приватности.

Что с этим могут сделать исследователи

Поскольку набор данных охватывает два разных курса и три года — включая серьёзное нарушение учебного процесса во время пандемии — его можно использовать для проверки устойчивости выводов между предметами, когорты и меняющимися условиями. Подробная временная информация поддерживает исследования процесс-майнинга, которые прослеживают типичные пути через учебные материалы, а насыщенные записи форумов пригодны для анализа социальных сетей взаимодействия сверстников. Авторы также предоставляют код для восстановления признаков обучения, что облегчает сравнение новых моделей и методов с существующими работами и исследование объяснимого искусственного интеллекта в образовании.

Открывая двери, не открывая личности

Проще говоря, эта статья показывает, что можно многое узнать о том, как студенты кликают и листают онлайн-курсы, не раскрывая их личность. Продуманно скрывая личные данные и одновременно сохраняя значимые паттерны, авторы предлагают публичный ресурс, который может помочь университетам понять и улучшить обучение в масштабах. Для студентов это может означать более умную поддержку и более адаптивное преподавание — основанное на данных, но не ценой их приватности.

Цитирование: Tiukhova, E., Van Landuyt, D., Baesens, B. et al. Open data, private learners: a de-identified student activity and performance dataset for learning analytics. Sci Data 13, 548 (2026). https://doi.org/10.1038/s41597-026-06821-3

Ключевые слова: аналитика обучения, конфиденциальность студентов, образовательные данные, онлайн-обучение, анонимизация данных