Clear Sky Science · zh

用于液压挖掘机臂能量回收自适应控制的贝叶斯强化学习

2026-01-25 · 返回目录

更智能的挖掘机为何重要

液压挖掘机是施工和采矿现场的主力，但它们消耗大量柴油，且把从发动机获得的许多能量以热量形式浪费掉。任何提高能量使用效率的改进都能为承包商降低燃料费用，并为所有人减少排放。本文研究了一种新方法，使挖掘机臂能够“前瞻性”地考虑不断变化的地面条件和机械磨损，从而在严格的安全限制内更有效地回收和重复利用能量。

挖掘工作对燃料的高消耗

现代挖掘机通常在高且固定的压力下运行液压系统，无论是在硬岩中掘进还是在松软土壤上轻柔平整。这种一刀切的方法保证了机器的可靠性，但在轻负荷工况和臂在自重下降时会把能量以热的形式浪费掉。尽管一些较新的设计包含可在液压蓄能器中捕获多余能量的装置，大多数机器仍依赖简单的固定规则来决定何时以及如何使用这些装置。结果是燃油消耗可能比必要的高出约20%，并在全球工地上增加了碳足迹。

用于机械臂的学习控制系统

作者构建了一个详尽的21吨挖掘机臂的虚拟模型，包括油缸、泵、阀门以及在臂下行时储能、在抬升时释放能量的充气蓄能器。控制器必须应对许多真实世界的不确定性：土壤突然变硬或变软、油液随温度变稠或变稀、部件的渐进性磨损以及传感器的噪声或轻微偏置。系统并不假定一切已知且恒定，而是将机器的真实状态视为部分隐藏，并使用贝叶斯方法不断更新其最佳估计。粒子滤波器估计诸如土壤阻力以及蓄能器相对于设计点是否略有过充或欠充等隐含因素。

教机器如何安全地自适应

在该状态估计器之上，团队训练了一个强化学习（RL）策略——一种通过仿真中逐步试错发现良好策略的算法。在每一时刻，策略接收关于机器状态的当前“信念”并选择连续的泵压和阀门开度指令。一个专门的安全层随后检查这些建议并将其裁剪到严格的安全范围：总体液压压力必须保持在5到35兆帕之间，蓄能器需维持在12–28兆帕的窗口内，阀门动作也受限以避免对系统产生剧烈冲击。学习过程通过奖励控制器快速完成每个挖掘循环、尽量少用液压能量并保持铲斗命中目标，同时对可能将系统推向不安全区域的行为施以惩罚。

智能控制器的性能如何

研究人员在每秒100次更新的高频联合仿真中进行了大量对比试验，将他们的贝叶斯RL控制器与两种更传统的方案比较：一种使用固定参数，另一种模拟熟练操作员对压力和速度做简单手动调整。所有控制器都面对相同的脚本化20分钟任务，其中土壤难度分阶段变化，油温从冷到热。基于学习的控制器能在几秒内跟踪土壤变化：当地面变硬时提高压力以保持循环时间稳定，挖掘变易时降低压力以节省能量并增加给蓄能器充能的机会。在多次随机化运行中，与固定控制器相比，每个挖掘循环的能耗约降低20–22%；相比操作员调整的方案则约降低14–18%，同时缩短循环时间并提高铲斗达到位置目标的精度。尽管系统在更激进地推动性能，诸如压力尝试超限或安全溢流阀长时间开启等安全事件反而变得更少。

对实际机器意味着什么

对非专业读者来说，关键信息是挖掘机臂可以学会既谨慎又节能。通过不断更新对挖掘难度、部件健康状况以及蓄能器中储能量的理解，控制器能够实时决定何时节能、何时为维持生产力而多消耗一些能量。该研究仍基于仿真而非实地试验，并且聚焦于单一规格的机器，但它表明将概率推理与基于学习的控制相结合，能够在不牺牲安全或速度的前提下显著提高重型设备的效率。如果类似方法被迁移到真实挖掘机上，承包商就可能以更少的燃料、更低的磨损和更少的排放完成相同的土方量。

引用: Hu, P., Wen, T., Zhang, D. et al. Bayesian reinforcement learning for adaptive control of energy recuperation in hydraulic excavator arms. Sci Rep 16, 6195 (2026). https://doi.org/10.1038/s41598-026-35391-y

关键词: 液压挖掘机, 能量回收, 强化学习, 贝叶斯控制, 重型机械效率