Clear Sky Science · zh

一种用于技术增强高等教育学习分析的隐私保护合成学习者数据集

· 返回目录

为什么无隐私风险的学生数据很重要

高校如今收集大量逐次点击的在线学习行为数据,从登录与视频观看到论坛发帖与测验成绩。这些数据可以帮助教师及早发现学习困难的学生并设计更好的课程,但在校外共享受到隐私法律与伦理的严格限制。本文介绍了一种解锁这些数据价值的新方法:一个规模大、逼真但完全虚构的学生数据集,旨在在保护个体隐私的前提下仍支持严肃研究。

Figure 1. 虚假学生记录如何在保护隐私的同时模拟真实学习数据
Figure 1. 虚假学生记录如何在保护隐私的同时模拟真实学习数据

安全类比学生记录的构想

本研究介绍了 SynEdu-HEDL,这是一个包含 20,000 条人工学生记录的集合,构建为类似真实大学数据但不包含任何实际学习者。每条记录汇集了背景信息、为期 16 周学期的逐周在线活动以及期末课程结果。目标是保留对教育重要的模式,例如持续参与度与成绩之间的关系,同时抹去任何真实学生的痕迹。通过公开发布该数据集,作者希望为研究者提供一个共同的试验平台,让他们在不接触敏感记录的情况下测试想法。

合成学生如何被创建

要构建 SynEdu-HEDL,研究者首先与一所大型公立大学合作,该校已经在数百门课程中跟踪丰富的在线学习活动。在严格的伦理审查后,真实数据被清洗、简化并去除直接标识符。随后使用了多步骤生成管道。系统的一部分专注于年龄段或专业等静态信息,另一部分学习学习行为如何在学期几周内变化,第三部分确保行为与结果之间仍合理关联。全过程中系统加入经过精心校准的随机性,以便无法重建单个个体的轨迹,同时典型的学习路径仍然可见。

Figure 2. 真实学习行为模式如何被转化为隐私安全的合成数据
Figure 2. 真实学习行为模式如何被转化为隐私安全的合成数据

在保持有用性的同时强化隐私

保护隐私不仅仅是去掉姓名。团队用一系列模拟攻击测试 SynEdu-HEDL,这些攻击试图猜测某个特定学生是否出现在原始数据中或重构其档案。攻击效果不比随机猜测好,而形式化的数学检验表明该数据集满足严格的隐私风险定义。与此同时,作者比较了真实与合成数据之间数百项统计指标。基本分布、变量间关系以及随时间的参与形态都高度一致,包括像在失败前活动突然下降这类罕见但重要的模式。

研究者能否信任来自虚假数据的结果

为验证合成记录是否确实有用,研究重建了常见的学习分析工具并用 SynEdu-HEDL 进行训练,然后在真实学生上测试。用合成数据训练的早期预警模型在识别风险学生方面的准确度几乎与直接用真实数据训练的模型相当,通常相差只有几个百分点。聚类分析仍能发现有意义的学习者群体,预测成绩或估计教学变动影响的模型表现也类似。更值得注意的是,当模型先在 SynEdu-HEDL 上训练,然后只用少量真实数据做轻度调整时,其性能显著提升,这对那些无法轻易共享或合并完整数据集的高校来说是个有希望的信号。

这对未来学习研究意味着什么

对读者来说,关键结论是我们或许不再需要在保护学生与推进学习研究之间做出选择。SynEdu-HEDL 表明可以构建一个详尽且可共享的真实教育数据替代品,在保障个体安全的同时仍支持严肃分析。通过免费提供该合成数据集及其代码,这项工作为开放且可重现的研究提供了实用工具,并为其他机构提供了模板。如果广泛采用并不断改进,这类以隐私为中心的合成数据可以帮助全球教育者测试新方法、改进对弱势学生的支持并在不暴露任何人个人历史的前提下跨校比较做法。

引用: Agal, S. A privacy preserving synthetic learner dataset for learning analytics in technology enhanced higher education. Sci Rep 16, 14772 (2026). https://doi.org/10.1038/s41598-026-44990-8

关键词: 学习分析, 合成数据, 学生隐私, 高等教育, 教育数据