Clear Sky Science · zh

一种模糊‑TD3 混合强化学习框架,用于三菱 RV-2AJ 机械臂的鲁棒轨迹跟踪

· 返回目录

为复杂现实任务打造更聪明的机械臂

工业机械臂在重复同一动作时表现卓越,但当任务或环境发生微小变化时可能会出现失误。本文提出了一种新方法,让常见的工厂式机械臂同时具备传统控制器的稳定性和人工智能的适应性。目标简单却要求严格:在无需精确机械模型的前提下,使机械臂精确跟随复杂的三维轨迹,即便负载变化或遭受推挤和扰动。

为什么精确运动对机器人如此困难

现代机械臂,例如本文研究的 5 关节三菱 RV‑2AJ,是复杂的机械系统。关节之间相互耦合,运动高度非线性,并且在真实工厂环境中要应对摩擦、振动、传感器噪声和未知负载等问题。经典控制方法(如 PID 控制器)易于调参且应用广泛,但在机器人高速运动、携带不同物体或遇到突发力时表现欠佳。另一方面,深度强化学习理论上可以通过试错学习出优良的控制策略,但在实践中学习速度可能较慢、初期行为不稳定,且常被视为“黑箱”,令工程师难以解释或信任。

把人工规则与机器学习结合起来

为弥合这一差距,作者提出了一种混合控制器,将可解释地编码专家规则的模糊逻辑系统与一种名为 TD3 的强力强化学习方法配对。在该设计中,模糊部分监测每个关节偏离目标的程度及该误差的变化速度,随后根据一组简洁的“如果—那么”规则施加即时的纠正力矩,类似有经验的操作员所做的动作。这提供了稳定且可理解的基线行为。与此同时,TD3 智能体通过大量仿真学习如何施加较小的“残差”力矩来微调运动,以补偿难以建模的效应,例如非线性摩擦或持续变化的负载。两路力矩信号在每个关节处相加,因此机械臂始终由显式规则与学习适应共同驱动。

Figure 1
Figure 1.

用于复杂轨迹的数字试验台

该混合控制器在用多体仿真工具构建的三菱机械臂详细虚拟副本中进行训练和测试。该环境重现了机械臂的刚性连杆、关节极限和传感器不完善之处,使学习算法在安全探索的同时仍面对真实物理特性。研究者用要求所有关节协调平滑运动的复杂三维轨迹——N 型、螺旋和盘绕路径——对控制器提出挑战。他们还通过改变连杆质量和转动惯量以及施加模拟冲击或外力的突发力矩脉冲来引入不确定性。在此设置中,模糊逻辑组件确保机械臂不会行为失控,而 TD3 智能体则通过最大化一个兼顾精度、平滑性与能效的奖励信号逐步提升性能。

混合方法为何胜过竞争者

在所有测试轨迹上,模糊‑TD3 混合控制器均优于纯 TD3 控制器以及先前将 TD3 与标准 PID 结合的混合控制器。累积偏差的误差指标显示,与仅用 TD3 相比,误差降低约 28–50%,与基于 PID 的混合方法相比约降低 15–29%。即便在机械参数扰动和施加外部干扰的情况下,新控制器仍保持优势,相对于 TD3 将误差减少约 23–34%,相对于 PID‑TD3 减少约 11–17%。附加分析表明学习过程收敛平稳、整体行为数值稳定,且模糊规则以直观模式激活——在正常运动时进行温和且频繁的修正,而在偏离目标较远时进行更强但较少的干预。

Figure 2
Figure 2.

在精度与能耗之间取得平衡

研究还表明,该控制器可以通过调节奖励函数中的一个权重,在牺牲少量精度的同时显著节能。通过该权重调整,算法学会将平均关节力矩减少超过 20%,而跟踪误差仅略有增加。这种可调性意味着同一控制方案可在重视能效高于极致精度的任务或反之场景中应用,而无需重设计整个系统。

对未来机器人的意义

通俗地说,这项工作展示了一种有前景的方案,使机械臂更可靠且更易解释:用一组清晰的人类可读规则来处理快速纠正与安全,令学习算法在后台逐步提升性能。其结果是一个能更准确地跟踪复杂路径、抵抗扰动、更明智地使用能量并对工程师保持可解释性的控制器。这类混合设计有望推动先进的 AI 驱动控制从实验室走向真实工厂、仓库和服务型机器人场景,在这些场景中可靠性和透明性与原始智能同样重要。

引用: Hazem, Z.B. A fuzzy-TD3 hybrid reinforcement learning framework for robust trajectory tracking of the Mitsubishi RV-2AJ robotic arm. Sci Rep 16, 12269 (2026). https://doi.org/10.1038/s41598-026-42615-8

关键词: 机械臂控制, 强化学习, 模糊逻辑, 轨迹跟踪, 鲁棒自动化