Clear Sky Science · zh
基于深度强化学习的多目标优化及其在照明基础设施运维策略中的应用
更聪明的灯,让隧道更安全
在长长的高速公路隧道中行驶时,我们往往理所当然地认为灯光会保持明亮稳定。然而,要在不浪费不必要维修费用的情况下维持成千上万盏灯具安全运行,是一项复杂的平衡工作。本文提出了一种使用人工智能来持续平衡两项相互竞争目标的新方法:为驾驶员保持照明可靠性,并控制整体成本。
为什么隧道照明难以管理
隧道照明对交通安全至关重要。当灯具老化或电路失效时,光照水平可能突然下降,使驾驶员更难判断距离和速度,增加事故风险。传统的维护依赖固定计划、简单阈值或诸如“最小化成本”或“最大化灯具寿命”之类的单一目标规则。这些方法难以应对真实隧道的情况——环境随时间变化、成千上万的灯具以不同速率老化,且安全与成本常常相互冲突。作者认为,需要一种能够不断从数据中学习并随着系统变化调整决策的方法。

教会数字代理维护灯具
研究人员构建了一个数字“代理”,通过与模拟隧道交互来学习何时以及如何修理、更换或调整隧道灯具。该代理基于深度强化学习——一种系统尝试动作、观察结果并逐步学习以最大化奖励的人工智能分支。在这里,奖励将运行成本(能源消耗、人工、备件和安全惩罚)与系统健康(灯具继续可靠工作的概率)结合起来。代理看到隧道的详细状态:每个灯具的亮度、是否有故障、周围的光环境以及随时间出现的退化迹象。在每一步,它为每盏灯选择动作——不操作、增亮、调暗、维修或更换——并接收这些选择如何影响成本与可靠性的反馈。
刻画灯具的损耗过程
为让代理在现实的环境中学习,作者首先建立了灯具退化的数学模型。他们使用一种随机游走过程(维纳过程)来同时捕捉走向失效的稳态漂移和来自现实条件(如温度波动)的不确定性。利用云南省一条7公里隧道中2000多只LED灯具四年的运行数据,他们将大量传感器读数压缩为单一的“健康”指标,并证明该退化模型与现实高度吻合。模型可以预测故障概率如何随时间增长以及灯具可能剩余的寿命。该模型被用于构建模拟环境,使学习代理在不危及真实司机的情况下练习运维策略。
同时平衡成本与可靠性
工作的一项关键贡献是将成本和可靠性视为同等重要的目标,而不是将它们合并为一个数值。作者将多目标问题拆分为许多更简单的子问题,每个子问题代表在低成本与高可靠性之间的不同权衡。针对每个子问题,学习代理找到一套良好的策略;这些策略合在一起,就形成了最佳妥协的“前沿”。为了加快这一过程,团队允许在权衡相近的相邻子问题之间共享学习成果,而不是对每个子问题从头训练。他们还重塑了可靠性度量,使得在系统接近危险失效水平时学习过程特别敏感,从而推动代理在安全受威胁前更积极地响应。

新策略的成果
与几种常见的隧道维护策略(如定期检查、基于亮度的触发或基于故障率的规则)相比,新方法在安全与开支之间取得了更好的平衡。它将整体维护和运行成本降低了近30%,同时保持较高的可靠性,避免了学习代理变得过于谨慎或过于冒进。参数共享方案还提高了训练效率,减少了计算时间并改善了可能的成本—可靠性权衡覆盖范围。对于普通读者来说,要点是:该方法利用数据和自适应学习来精确决定何时何地在隧道中干预,从而使灯光对驾驶员保持安全,同时在系统生命周期内为纳税人或运营者节省开支。
引用: Wang, Z., Tang, J., Wei, P. et al. Deep reinforcement learning-driven multi-objective optimization and its applications on lighting infrastructure operation and maintenance strategy. Sci Rep 16, 8989 (2026). https://doi.org/10.1038/s41598-026-37811-5
关键词: 隧道照明, 预测性维护, 强化学习, 基础设施可靠性, 多目标优化