Clear Sky Science · zh
SVDHLA:对称可变深度混合学习自动机及其应用
教机器何时停止尝试
现代学习系统常常面临一个简单但关键的两难:它们应当在坚持同一选择多久之后才切换到新选项?本文针对一个经典的决策模型研究了这一问题,并展示了让系统能够调整自身坚持程度如何使其更快、更可靠,甚至在训练更好的神经网络时提供帮助。

为什么经典的试错方法不够
这项工作建立在一个由来已久的思想上,称为学习自动机——一个简单模型,它反复在若干选项间选择,并根据奖励和惩罚学习。一个广泛使用的版本,记作 LK,N,K,将每个选项表示为一段短阶梯的内部状态。阶梯越深,自动机在放弃该选项之前需要受到的惩罚次数越多。较小的深度使系统更容易改变主意,鼓励探索;而较大的深度则让它固执,偏向利用目前看起来有效的选项。问题在于,这个深度必须事先固定,尽管最优设置在很大程度上取决于问题本身并且会随时间变化。在平稳环境中,不合适的选择会减慢学习速度;在变化环境中,它可能把系统困在过时的行为中,或使其变得抖动且不稳定。
一种自我调节的坚持感
为克服这种僵化,作者提出了 SVDHLA,意为对称可变深度混合学习自动机。SVDHLA 不再事先锁定深度,而是将经典的阶梯式自动机与第二个较小的决策器耦合,后者的唯一任务是调整这些阶梯的深度。该辅助器为整个系统在三种简单动作中做出选择:将每个选项的深度增加一、将所有深度减一,或停止并保持当前深度。它基于主自动机最近表现的好坏来决策,这一表现由其达到最有利内部状态的频率与被迫切换选项的频率之比来概括。随着时间推移,这形成了一个反馈回路:如果系统切换过多,辅助器倾向于增加深度以变得更耐心;如果系统固守劣选,辅助器则倾向于缩短深度以更快反应。

将新学习器投入测试
研究者在多种计算机模拟环境中测试了 SVDHLA。有些环境有固定的奖励模式;有些会随时间不可预测地变化,或对频繁重复的选择施加惩罚。在这些场景中,新方法在总奖励和后悔值(即与理想决策者相比的机会损失)上始终优于原始模型和一款较新的混合变体。关键优势在于 SVDHLA 能自行判断应更谨慎还是更大胆,并随着条件变化调整这种策略。即便在可行动作众多而只有一两个优良动作的棘手情况下,系统也能快速稳定到一个有用的深度范围,而不是无休止地调整其结构。
从排队与交通到神经网络
为证明这不仅仅是理论改进,作者将 SVDHLA 应用于两个实际问题。首先,他们用它决定在一个模拟的计算机系统中服务器下一步应处理哪个队列,该系统中任务到达和完成速率不均。在这里,自适应深度帮助调度器将平均等待时间保持在低于传统学习自动机和流行的赌博机式算法(如 softmax、上置信界和汤普森采样)的水平。其次,他们将 SVDHLA 用作神经网络中 dropout 的控制器——dropout 是在训练中随机关闭单元以避免过拟合的技术。与使用固定 dropout 率不同,SVDHLA 按批次学习是增加、减少还是维持 dropout 水平,依据损失的变化而定。这种自适应 dropout 在 MNIST 手写数字识别任务上比早期基于学习自动机的控制器获得了略高的准确率和更稳定的结果。
这对更智能的学习系统意味着什么
通俗地说,SVDHLA 赋予了试错式学习者一种自我调节的坚持感。系统不再依赖人工工程师去猜测在尝试新选项与坚持旧选项之间的正确平衡,而是衡量自身的成功与失败并相应调整坚持程度。研究表明,这一额外的简单适应层可以在静态和变化环境中都提升性能,并能插入更大的系统(如队列管理器和神经网络)。展望未来,类似的思路可以帮助许多其他学习方法自动校准它们改变主意的速度,使人工决策系统既更鲁棒也更易部署。
引用: Nikhalat-Jahromi, A., Saghiri, A.M. & Meybodi, M.R. SVDHLA: symmetric variable depth hybrid learning automaton and its application. Sci Rep 16, 14336 (2026). https://doi.org/10.1038/s41598-026-43271-8
关键词: 学习自动机, 强化学习, 探索 利用权衡, 自适应 dropout, 多臂老虎机问题