Clear Sky Science · zh

使用语义分割引导的强化学习在非结构化户外环境中的自主导航

2026-01-20 · 返回目录

机器人学会在树林中徒步

想象一个可以自主沿林间小径行进的小型机器人，在没有 GPS 或人类操纵摇杆的情况下，在树木和岩石间穿行。本文描述了一个系统，教会这样的机器人在茂密树林中“看见”小径，并在每一时刻决定如何安全地前进。这项工作对未来能够协助森林监测、防火、搜索与救援，甚至在卫星信号微弱或缺失的地区执行户外配送的机器人具有重要意义。

为什么森林对机器人如此困难

森林是自主机器最困难的环境之一。小径可能狭窄而弯曲，地面凹凸不平，树枝和灌木常常遮挡视线，高大的树木使得 GPS 信号不可靠。传统导航方法依赖精确地图、强稳的 GPS 或昂贵的激光传感器，通常假设环境是像城市街道或工厂车间那样清晰、有结构的空间。在树林里，这些假设失效：阴影、季节变化和浓密植被会干扰简单的视觉系统，而基于规则的控制器难以应对真实小径上出现的各种混乱且意外的情况。

三个“大脑”协同工作

作者提出了一个混合导航系统，为机器人提供三种互补的“智能”。第一，深度视觉模块分析每帧相机图像，几乎逐像素地标注哪些部分属于可行走的小径。第二，基于学习的决策模块使用强化学习来选择平顺的转向和速度指令，对保持在小径上、避免碰撞并高效到达目标的行为给予奖励。第三，经典控制器将预测出的小径形状转换为稳定的车轮运动，抹平突发动作，使机器人行进更加平稳而非颠簸。相比于单一的端到端不透明网络，这些模块是独立但紧密相连的，便于工程师理解与调试每个阶段。

教会视觉识别小径

机器人“眼睛”的核心是一个称为 Mask R-CNN 的深度网络，在这里被调优用于在普通彩色图像中突出森林小径。该网络在近 24,000 帧标注的真实徒步视频帧上训练，这些视频由人的视角拍摄，涵盖了不同光照、天气和小径类型，系统学会将每帧中的小径区域以干净的掩码形式标出。然后从该掩码中提取一条细中心线曲线，捕捉前方路径的方向和曲率。测试中，视觉模块与人工标注具有较高的重叠度，像素准确率超过 90%，即使在树枝或阴影部分遮挡道路时也能稳健地勾勒出小径。这些几何线索作为“路径在哪里”的紧凑描述，直接输入到学习与控制模块中。

训练机器人做出良好决策

第二个关键部分是决策模块，使用一种称为强化学习的技术。机器人不是被逐步告诉具体动作，而是在逼真的模拟森林中尝试动作，并因良好结果获得奖励、因不良结果受罚。沿着小径前进是有利的；偏离、碰撞障碍或陷住则是不利的。经过大约 150,000 步训练，该系统逐步发现了能保持居中、优雅应对弯道并在遇到树枝或岩石时作出合理反应的策略。为了保持动作平滑与安全，学到的动作可以与经典控制器的输出混合，这在急弯或噪声较大的情况下尤其有用。

将系统投入测试

为了评估这种组合的效果，研究者构建了三座细致的虚拟森林：一座具有狭窄且杂乱的小径，另一座地形陡峭不平且有大型障碍，第三座充满分叉、死胡同和迷惑性的伪小径。在这些地图上的 90 次试验中，机器人在约 87% 的情形下无碰撞到达目标，平均每次运行只有 0.2 次轻微碰撞，且通常保持在小径中心约 30 厘米范围内。它还能够快速且一致地完成路径。当作者逐一移除或简化某一模块时，性能显著下降——表明这三部分缺一不可。与包括激光扫描器在内的其他近期系统相比，这种仅依赖视觉的混合方法在成功率、精度和安全性之间提供了最佳的综合表现。

对真实世界机器人的意义

对非专业读者来说，结论是机器人在像谨慎且熟练的徒步者那样行走方面越来越出色。通过结合强大的视觉语境感知（“这是路径”）、基于实践的决策制定（“这些动作以前证明可行”）以及稳定的转向机制，所提出的系统使小型轮式机器人在没有地图或 GPS 的情况下穿越复杂森林成为可能。尽管该工作主要在仿真中测试，仍面临诸如极端光照与罕见小径类型等挑战，但它为未来能与人类共享原野环境、帮助我们巡查森林、支持救援队伍并更有效地管理自然资源的现场机器人提供了实用蓝图。

引用: Tibermacine, A., Tibermacine, I.E., Akrour, D. et al. Autonomous navigation in unstructured outdoor environments using semantic segmentation guided reinforcement learning. Sci Rep 16, 2633 (2026). https://doi.org/10.1038/s41598-026-36022-2

关键词: 自主导航, 林业机器人, 计算机视觉, 强化学习, 语义分割