Clear Sky Science · zh

通过在线学习在意外情况下重建控制使机器人重回正轨

2026-03-09 · 返回目录

为何保持机器人可控至关重要

机器人正走出工厂车间，进入繁忙且不可预测的场所：城市街道、农田、灾区甚至航道。在这些环境中，一阵突风、一块冰面或一个损坏的车轮都可能让机器人表现出设计者未曾预料的行为，危及人员、财产和任务。本文介绍了 FLAIR——一种快速学习的附加层，帮助机器人在发生意外时仍然保持可控，而无需从头重新设计其底层系统。

机器人与真实世界的对抗

大多数机器人和智能车辆都是针对工程师可预见并编码的条件进行调校——仓库内的干燥地面、标识清晰的道路、稳定的硬件。但在现实世界中，情况会出错：货物移动导致重心变化，履带磨损，地面变得湿滑，或者侧风和水流等外力把车辆推离航道。发生这种情况时，操作者可能把操纵杆向前推动，却看到机器向一侧偏移。作者将机器人定义为“可操作”是指其响应与人合理预期相符；在强烈扰动下，这种对应关系会断裂，导致事故，例如船只卡在运河中。挑战在于快速恢复这种直观的指令——运动关联，即便扰动在事前从未被预见。

在现有控制器之上加一层学习

研究人员并没有为每一种可能的故障重写机器人的低级控制器，而是加装了一个新的高级层，称为 FLAIR（Fast Learning‑Based Adaptation for Immediate Recovery，快速基于学习的即时恢复）。FLAIR 监听人类操作者发送的相同命令——例如“前进”或“左转”——并用车载传感器观察机器人实际的运动。通过将预期运动与实际运动对比，它学习当前扰动的简洁数学描述，例如某侧履带抓地力下降或侧风施加的横向推力。每 225 毫秒，它更新这一内部表征，并在将命令传给原始控制器之前对命令做微调。为了保持系统对人类可理解，FLAIR 用简单曲线表示总体扰动，而不是不透明的深度网络，并且可以突出显示空间中哪些区域或哪些方向当前最具危险性。

在坡道、弯道和人工风暴中测试机器人

为了检验 FLAIR 的能力，团队在室内测试跑道上对一辆履带机器人进行了 700 多次实验。一个赛道包含紧凑的 S 形弯道；另一个将一个湿滑坡道与模拟风区结合，外部风扇向机器人施加侧向推力；第三个赛道加入了颠簸和障碍物以扰动传感器并引入额外噪声。研究人员模拟了不同类型的问题：静态损伤（例如长期削弱的履带）、随时间变化的动态损伤以及依赖状态的效应（扰动依赖于位置或航向），类似于将船只拉向运河边的伯努利力等真实现象。自动驾驶系统在有无 FLAIR 的情况下沿相同路径行驶，团队比较了机器人路径与命令的匹配程度以及完成每圈所需的时间。

比现有方法更快恢复可控性

在所有测试区段中，FLAIR 将命令与实际运动之间的不匹配减少了约四分之三，并将圈速减少了大致相同的比例，使性能接近未受扰动时的水平。在一个混合滑移和硬件损伤的特别具有挑战性的坡道上，它有效地恢复了完全的可操作性，而标准的最优和自适应控制器最高也只能将误差减半。一个在线强化学习基线方法则完全失败，在还未适应之前就变得不安全。FLAIR 在扰动中途改变时也表现出鲁棒性：它检测到先前模型不再匹配现实，清空记忆并在几秒内重新学习出新的表征，使机器人在条件变化时仍可操控。同样策略也适用于一个具有多个关节的六足机器人模拟，FLAIR 帮助补偿了虚弱的腿。

看见机器人所感知的世界

除了让机器人保持在轨之外，FLAIR 还提供了观察其“感受”的窗口。因为它对扰动如何随位置和方向变化建模，能够向操作者显示力最强的区域——如运河边缘、特定坡道角度或迎风时的位置。这种“自省”使系统成为诊断工具，提示问题更可能是磨损、地形还是外部推力，并建议避开高风险区域的更安全路径。重要的是，该方法仅依赖机器人现有的传感器和车载计算机，因此可以在现场运行而无需云连接或预先收集的训练数据。

对日常机器人学的意义

该研究表明，一个轻量级的学习层可以在不需要对每种可能扰动都建立精确模型的情况下，大幅提高机器人对突发情况的弹性。只要纠正性力在电机物理可提供的范围内，FLAIR 就能快速重新学习如何把人类命令转化为正确的底层动作，即使在崎岖地形和变化的条件下也是如此。对于非专家而言，这意味着未来的地面车辆、配送机器人或勘测机器在环境出现异状时更可能表现得像值得信赖的工具——在环境失常时继续“按你的意思行事”，并在达到极限时提供线索，而不是突然偏离航道。

引用: Allard, M., Flageat, M., Lim, B. et al. Getting robots back on track by reconstituting control in unexpected situations with online learning. Nat Commun 17, 3715 (2026). https://doi.org/10.1038/s41467-026-70256-y

关键词: 机器人弹性, 在线学习控制, 自治车辆, 机器人损伤恢复, 自适应机器人学