Clear Sky Science · zh
开放数据,私人学习者:用于学习分析的去标识化学生活动与绩效数据集
为什么你的在线学习习惯很重要
每当学生登录在线课程、点击讲义幻灯片或阅读讨论帖时,都留下了一串数字足迹。这些痕迹可以揭示谁在挣扎、谁学习顺利,以及哪些教学策略真正有效。但它们也包含高度个人化的信息。本文介绍了一个大规模、经过仔细去标识化处理的大学生在线学习行为数据集,旨在为更好的教学提供洞见——同时不暴露个体学习者的身份。

从课堂点击到研究金矿
该数据集来自鲁汶大学一年级商科学生,他们在三学年期间修读了两门入门课程——会计学与全球经济学,包括在许多教学转为线上进行的 COVID-19 大流行期间。课程严重依赖学习管理系统,学生在其中访问读物、幻灯片、测验和讨论论坛。每一次交互,例如打开文件或查看论坛线程,都会带有时间戳记录。将这些日志与考试成绩结合起来,可以在数周或数月的尺度上描绘学生的实际学习行为,而不仅仅是他们考试当日的表现。
在共享数据时保护学生
共享此类信息会引发严重的隐私问题:原始记录包含唯一的学生标识符、精确成绩和精确的活动时间,这些都可能使个人被重新识别。为防止这种情况,作者在发布数据前施加了多层去标识化处理。学生 ID 被替换为随机编码,且回溯到真实身份的链接已被销毁。考试分数不以精确数字共享,而是归入如不及格、边缘、通过或优秀等宽泛区间。关于学生具体学习项目的细节被删除,在线平台中的内容项被分配为诸如课程材料或评估等通用类型,而不是保留原始文件名。

模糊细节而不丢失故事
仅仅去掉姓名并不足以实现强隐私,因此团队还调整了数据中时间和结构的呈现方式。比如,他们对每位学生的时间戳增加了若干秒的微小随机偏移。这使得将日志与现实事件匹配变得更困难,同时保留了动作顺序,这对研究学习模式至关重要。论坛帖子、会话标识符和内容 ID 都被随机重新编号。随后研究者使用一种称为 k-匿名性的标准度量来检验结果的匿名性,k-匿名性考察有多少学生共享相同的特征组合。在大多数情况下,转换后的数据使个体融入更大的群体,从而提高了隐私保护。
数据仍然能讲真相吗?
当然,若数据在去标识化后仍不足以支持可靠研究,则匿名化就失去了意义。为此,作者重建了数十个早期研究用于检测异常学习模式和预测考试成功的学习特征。这些特征包括学生登录频率、在学期内分配学习时间的均匀程度,以及他们在论坛上的活跃度。团队使用统计检验比较了原始数据与去标识化数据中每个特征的分布。在几乎所有情况下,两种版本无显著差异,表明隐私保护措施并未扭曲学生在线学习方式的整体叙述。细微差异大多来自于对内容类型的分类改进,而非隐私处理本身。
研究者能用它做什么
由于该数据集涵盖了两门不同课程和三个学年——包括疫情这一重大干扰期——它可用于检验研究发现是否跨学科、跨学生群体和在变化条件下仍然成立。精细的时间信息支持过程挖掘研究,用于追踪学生在课程材料中的典型路径;而详尽的论坛记录则可支撑同伴互动的社交网络分析。作者还提供了用于重建学习特征的代码,便于将新模型和方法与现有工作进行比较,并探索教育领域的可解释人工智能。
在不暴露身份的情况下开放大门
通俗地说,本文展示了可以从学生在在线课程中的点击和滚动中学到很多东西,而无需暴露他们的身份。通过在保留关键模式的同时审慎地掩盖个人细节,作者提供了一个公共资源,能帮助高校在更大范围内理解并改进学习。对于学生而言,这可能意味着基于数据但不以牺牲隐私为代价的更智能支持与更及时的教学响应。
引用: Tiukhova, E., Van Landuyt, D., Baesens, B. et al. Open data, private learners: a de-identified student activity and performance dataset for learning analytics. Sci Data 13, 548 (2026). https://doi.org/10.1038/s41597-026-06821-3
关键词: 学习分析, 学生隐私, 教育数据, 在线学习, 数据匿名化