Clear Sky Science · zh

使用强化学习模型的模糊自适应非线性多输入多输出控制用于刚性耦合多体机器人

2026-02-28 · 返回目录

能够在岗位上学习的机器人

机器人正走出有围栏的工厂线，进入医院、仓库，甚至我们的家庭。在这些混乱的环境中，负载会变化，地面并非完全平整，人也可能撞到它们。本文探讨了一种新方法，使多关节机器人——例如机械臂和步行机器——即便在周围环境不可预测且自身结构随时间变化的情况下，仍能保持运动的平滑、精确和稳定。

传统机器人控制为何不足

经典机器人控制器有点像假定道路总是干燥平坦的汽车定速巡航系统。它们依赖关于每个关节、齿轮和力的详细数学模型。但在现实中，机器人在搬不同物体时、关节升温或遇到颠簸和推力时，行为会发生漂移。对于关节众多且相互耦合强烈的机器人，写出完美模型几乎不可能。因此，标准的单回路控制乃至更复杂的多回路方案在面对负载变化和扰动时常常浪费能量、响应迟缓或失去精度。

面向多关节机器人的学习型控制“头脑”

为了解决这些问题，作者提出了一个完全无模型的控制框架，针对相互影响的多关节机器人设计。不依赖精确方程，控制器融合了三种思想：模糊逻辑，将“稍微超出一点”或“移动得太快”等模糊概念平滑地转化为控制动作；强化学习，使机器人通过试错随时间改进决策；以及一种受生物启发的搜索方法——海星优化算法，在机器人实际动起来之前帮助选择良好的初始设置。此外，加入了一个特殊的“有限时间”项，使跟踪误差不仅最终收敛，而且在可保证的短时间窗口内被压降。

新控制方法如何工作

控制器观测每个关节与期望角度的偏差以及该误差变化的速率。将这些信号通过模糊规则——一组可处理不确定性和非线性的重叠“如果-那么”语句——产生平滑的电机扭矩命令。强化学习在后台在线调整模糊规则参数，奖励那些迅速减小误差的动作，惩罚造成超调或抖动的动作。海星优化器在离线阶段先行工作，通过模拟海星在海洋中探索和精炼位置的方式，搜索一组良好的模糊参数初值。这个良好初始点加快了机器通电后的学习速度，而有限时间校正项则提供一个强烈的非线性推动，在即使机器人质量或环境意外变化时，也能在有界时间内将误差驱至近零。

在仿真臂腿上的测试

为检验该思路，研究者使用了两种机器人的计算模型。第一种是常用于模拟行走腿的简单两关节系统，其中一个关节故意不直接受电机驱动，以表示欠驱动、较难控制的情形。第二种是类似轻量化类人肢体的五关节机械臂。在两种情况下，所需的关节运动都是平滑的波浪形路径，同时通过统计过程随机改变连接件的质量以模拟现实中缓慢变化的有效载荷。还加入了额外扰动，例如随机推力和扭矩限幅，以考验控制器的鲁棒性。

仿真结果显示了什么

在多次试验中，新控制器使机器人关节紧密跟踪期望轨迹，最终角度误差通常在约0.02到0.04弧度之间——对机械臂末端而言仅几毫米。与标准比例–积分–微分（PID）控制和更先进的自适应方法相比，所提出的方法将两关节系统的整体跟踪误差最多降低约60%，对五关节机械臂则约降低30–35%。它还更快地达到平滑运动，通常在不到1.5秒内，并且控制耗能大约减少15%，意味着更低的能耗和电机磨损。即便在极端测试中——例如将有效质量加倍同时限制可用扭矩——该控制器也保持了稳定运动，避免了剧烈摆动。

这对日常机器人学意味着什么

对非专业读者来说，关键结论是机器人不必掌握自身力学的每一个细节，也能在变化的世界中可靠运动。通过结合类人的“模糊”推理、试错学习以及受海星启发的巧妙预调步骤，该控制方案使多关节机器人能够在运行中适应变化的负载和扰动，同时还保证误差迅速减小。如果在实际硬件上得到验证，这类方法可能使服务机器人、辅助设备和灵活的工业机械臂在处理新任务、新工具和新环境时更安全、更高效，且无需大量重新编程。

引用: Duan, C., Wang, L. & Li, S. Fuzzy adaptive nonlinear MIMO control for rigid coupled multibody robots using reinforcement learning model. Sci Rep 16, 11458 (2026). https://doi.org/10.1038/s41598-026-40982-w

关键词: 机器人控制, 强化学习, 模糊逻辑, 自适应机器人学, 轨迹跟踪