Clear Sky Science · zh

用于隧道事故的端到端应急响应协议：通过强化学习增强

2026-01-26 · 返回目录

为什么更智能的隧道救援很重要

当公路隧道发生灾害——无论是车祸、火灾还是结构坍塌——人们可能被困在一条又长又烟雾弥漫、宛如迷宫的管道中，出口寥寥。随着能见度下降、温度上升、碎片堵塞通道，救援人员必须冲入危险环境。本文研究了由一种巧妙学习策略引导的小型飞行机器人（无人机）如何在这些危险情形中成为快速且可靠的助手：寻找受困者并绘制安全路径，同时将救援队员置于较少危险之中。

危险的地下瓶颈

现代城市依赖隧道承载公路、铁路和能源管线，但同样封闭的结构在提高效率的同时也使得隧道内事故格外致命。火势迅速产生烟雾、有毒气体积聚，狭窄通道可能被撞毁的车辆或坠落的混凝土堵塞。传统救援队通常带着有限信息进入，只能凭猜测前进，而厚实的岩石与混凝土常常阻隔无线电信号。中国、日本等地的既往灾难表明，在及时找到受困者方面存在巨大困难，这凸显了需要能够以人类难以做到的方式“看见”并提前决策的工具。

教无人机探索与搜救

作者提出了一个系统，让多架自主无人机协同探索受损隧道、构建实时地图并定位被困人员。与其让无人机沿固定预设路线飞行，不如让每架无人机通过一种称为强化学习的方法从经验中学习：尝试行为、观察结果，并逐步发现哪些选择更有助于更快救援并减少失误。隧道被表示为一个网格单元，且无人机关注“前沿”——已知空间与未知空间的交界处，稳步将该边界向外推进。在每一步中，它们在少数网格移动选项中选择，并更新内部表格以记录在相似情形下哪些移动表现最好。

让多机器人在少通信下协作

让多架无人机同时搜索同一隧道提出了新挑战：在通信可能不可靠的情况下，如何避免撞到彼此或重复扫描同一区域？研究者并没有给它们一个中央指挥或不断的无线电对话，而是设计了一个简单的评分体系，悄然鼓励良好的群体行为。无人机在发现新受困者时会获得高额奖励，但若反复访问同一地点、与其他无人机相撞或因电池耗尽而“失败”，则会受到惩罚。随着时间推移，这会促使每架无人机偏向未探索区域并远离同伴，从而在各自独立学习的情况下，通过共享的后果自然地产生一种合作行为。

借鉴狼群策略以避免陷入困境

纯粹的试错学习有时会陷入安全但次优的习惯——例如总是选择熟悉的走廊而不尝试可能更快的风险捷径。为了保持无人机的好奇心，研究团队借用了灰狼群体猎捕的数学模型思想。这个“灰狼优化”组件会促使无人机偶尔模仿迄今表现最好的搜索模式，同时仍保留探索空间。实际应用中，它影响了哪些新动作会被尝试，帮助学习过程跳出死胡同并在隧道环境变化时（例如部分路线被火焰或碎片突然阻断）进行适应。

在虚拟灾难中测试该方法

由于在真实应急隧道中测试未经验证的策略并不安全，研究者构建了详细的计算机仿真，模拟狭窄走廊、死胡同、障碍物和分散的受困者。他们将所提出的基于学习的系统与若干其他方法比较，包括纯随机漫游和不带学习的独立优化方法。在单机与多机测试中，该方法更快找到受困者、以更少的无效步骤探索更多隧道区域，并更可靠地避免碰撞。重要的是，它采用轻量的基于表格的计算而非耗能的深度学习网络，这意味着在真正的紧急情况下能够在小型机载计算平台上切实运行。

这对未来救援意味着什么

这项研究表明，一群相对简单的无人机，在精心设计的学习规则及少量源自自然的思路引导下，有望成为消防员和救援队在隧道灾害中的有力伙伴。通过快速绘制烟雾弥漫且不断变化的环境并在无需持续人工控制的情况下定位可能的受困点，这类系统能为响应争取宝贵分钟并降低一线救援人员面临的风险。尽管目前工作基于仿真和理想化传感器，但它为未来必须在极其苛刻的时间、能量和计算限制下运行的真实系统奠定了务实基础。

引用: ur Rehman, H.M.R., Gul, M.J., Younas, R. et al. End-to-end emergency response protocol for tunnel accidents augmentation with reinforcement learning. Sci Rep 16, 6226 (2026). https://doi.org/10.1038/s41598-026-37191-w

关键词: 隧道应急响应, 搜索与救援无人机, 多智能体强化学习, 机器人灾难管理, 自主探索