Clear Sky Science · zh
一种用于稳健MOOC退课预测的自适应多尺度时空图网络
为什么在线课程退课很重要
大规模开放在线课程(MOOC)承诺为任何有网络连接的人提供高质量教育。然而大多数报名者并未完成课程:在许多课程中,超过五分之四的学习者会在课程结束前悄然流失。本文处理了这些数字背后的一个实际问题:我们能否在足够早的时间可靠地识别出有退课风险的学生,以便教师或平台介入并提供帮助——尤其是在那些零散、真实的课程中,学习者按自己的节奏学习?
从学习者与课程构成的网络中学习
作者没有把每个学生当作电子表格中孤立的一行,而是将MOOC视为一个动态网络。在该网络中,有学生节点、课程单元节点和整门课程节点,它们通过丰富的活动模式相互连接:观看视频、做测验、参与论坛或同时修读多门课程。随着学习者对不同课程部分的参与或停止参与,这种结构会随时间变化。通过对这一演变网络建模,系统不仅能够捕捉学生的参与量,还能把他们的行为与具体内容、同伴活动和课程设计之间的关系联系起来。

短期突发与长期习惯
许多现有预测系统依赖逐步记忆:它们仅使用最近时间片的活动来更新对学生状态的判断。作者认为这对真实的学习行为过于简单,真实行为常常反映出突发冲击与长期趋势之间的拉锯。学生可能在赶进度时短暂地活跃起来,或在忙碌的一周里暂时放慢节奏,而这种波动并不能定义他们的整体轨迹。关键是判断何时应信任最新变化,何时应依赖更深的历史。
在两个时间尺度上记忆的网络
为了解决这一问题,论文提出了MST-GCN,一种同时关注近期行为和略早期模式的“多尺度”图网络。在每一步,模型构建交互网络的快照,并使用专门的图模块来概括围绕每位学生的当前学习情境:他们接触了哪些资料、与哪些同伴相似、以及课程要素显得多么具有挑战性。然后,一个新颖的“自适应门”混合两种记忆:一种捕捉即时势头,另一种反映更稳定的早期参与。至关重要的是,每种记忆获得的权重取决于图中当前的情境,而不是固定规则。

对模型的测试
作者在两个大型真实数据集上测试了MST-GCN。其一来自KDD Cup 2015竞赛,包含仅有严密安排、由教师节奏主导的课程。另一个来自学堂在线(XuetangX)平台,包含数百门既有按计划进行也有自定进度的课程,学生可以在不规则时间开始和推进学习。在这两类设置中,退课人数远多于完成者,增加了预测难度。与经典机器学习方法、序列模型如LSTM、基于Transformer的方法以及早期的图方法相比,MST-GCN在区分可能退课者与可能完成者方面始终取得更好的分数。在常规周计划课程中,提升虽适中但明确;在灵活的自定进度课程中,提升更为显著——在那里行为更嘈杂、时间性更难预测。
窥探“黑箱”内部
除了原始准确率外,作者还研究了自适应门的行为。当学生表现出显著且持续的活跃度上升时,门更倾向于近期行为,有效地“倾听”新的势头。当当前信号薄弱或紊乱时,门则回退到长期模式,避免对一次性激增或下降作出过度反应。学生内部表示的可视化显示,退课组和非退课组在表示空间中分簇明显分离,这表明网络学到了有意义的参与概念。案例研究进一步说明,模型能够抵抗被临时抱佛脚所误导,同时奖励真实且持续的进步。
这对在线学习者和教育者意味着什么
对于普通读者,结论是退课不仅关乎学习者当前做了多少事,还关乎当前行为如何融入一个更长的故事。通过将课程网络的丰富视角与灵活的记忆概念结合,MST-GCN提供了一种更稳定且更易解释的方式来预测谁可能离开、谁有望完成。尽管该模型尚未提供能精确指出具体问题视频或作业的细粒度解释,但其设计使在线教育更接近于既可靠又符合真实学习者随时间变化规律的早期预警系统。
引用: Duan, Y., Chen, X. An adaptive multi-scale spatio-temporal graph network for robust MOOC dropout prediction. Sci Rep 16, 10966 (2026). https://doi.org/10.1038/s41598-026-40502-w
关键词: MOOC 退课预测, 教育数据挖掘, 图神经网络, 学生参与度, 预警系统