Clear Sky Science · zh

用于多路口网络协作治理与去中心化决策的图变换器Q网络

2026-03-31 · 返回目录

为何更智能的红绿灯很重要

在城市里开车的人都知道，明明路面看起来通畅，却连续遇到红灯的挫败感。这种堵停波不仅令人烦恼：它浪费时间、消耗燃油，当车队在多个路口回堵时，还可能使整条走廊陷入拥堵。本文研究一种让信号灯“互相对话”的新方法，使绿波能更可靠地在长距离路段形成，即便交通不可预测且街道网络规模大且复杂。

Figure 1. 沿城市走廊的信号灯相互协调，使车辆更平顺地通行，减少红灯停驶。

城市街道如何成为网络

研究者首先将城市道路系统视为一个相连的网络。每个路口是一个节点，节点间的道路是边。每个信号控制器只能看到本地传感器报告的信息：等候的车辆数量、它们被延误的时长以及当前哪个相位为绿灯。没有哪个控制器能一次性看到整个城市的全貌，但每次换灯都会影响随后到达其他路口的交通。挑战在于让这些本地控制器合作，以便车辆沿走廊尽可能少地发生不必要停驶，同时仍能服务支路和转向交通。

逐步教会信号协作

作者没有采用手工制定的时序方案，而是使用强化学习：算法在交通仿真中尝试动作并观察结果以学习。每个路口作为一个智能体，决定下一个相位以及持续时间。关键创新是一种称为图变换器Q网络（Graph Transformer Q-Network，GTQN）的方法，用来判断在任一时刻哪些相邻路口最重要。该方法分两步：先从上游或下游邻居中选择一小组有影响力的节点，再根据当前交通状态为它们分配影响强度。这可以避免控制器被来自远处、对自身交通影响甚微的噪声信息淹没。

在空间与时间上追踪交通

要形成平顺的绿波，信号需要预判几处路口之外被放行的车辆，这些车辆可能需要许多秒钟才能到达。GTQN 通过将网络布局的信息与随时间变化的状态记录相结合来应对这一点。一个最初在语言模型中流行的变换器模块被用于回顾每个路口的近期历史并挑选出对当前决策重要的过去时刻。与此同时，图模型对路口间的连接关系进行推理。通过在一个模型中融合空间与时间，系统可以学习车队沿走廊的移动规律以及如何最好地将绿灯与它们的到达对齐。

设定超越单一路口的目标

如果每个信号灯只试图清空自身队列，整条走廊的表现可能很差。例如，下游的一个信号可能会缩短绿灯，相反原本可以让来自上游的一组车辆不停车地通过。为避免这种情况，作者设计了一个两级目标。每个路口仍会因减少自身队列和等待时间而获得奖励，但一个集中式训练信号也会对沿主走廊在入口放行后所经历的额外停车进行惩罚。在训练过程中，一个集中“治理”模块使用该走廊范围的评分来引导学习。训练结束后，学得的控制器在本地行动，并仅与所选邻居共享稀疏且有针对性的消息。

仿真实验结果

团队在合成网格和来自中国成都的真实城市网络（包括含100个路口的系统）中进行了详细仿真测试。与若干先进的多智能体控制方法相比，GTQN 减少了车辆必须停下的频次、缩短了等待时间，并防止队列增长到足以阻塞上游路口的程度。它在部分路口之间的消息出现延迟或丢失时仍能保持合理性能，这对真实通信网络来说是重要特性。细致的消融研究表明设计中的每一部分都很关键：学习到的稀疏性、结合的时空模型以及集中式训练信号共同促进了稳健的协调。

对日常出行的意义

对驾车者、骑车者和公交乘客来说，这项工作的核心思想很简单：与其让每个信号灯孤立工作，沿走廊的信号学会相互预判并保护车辆群体的通行。在高保真仿真中，这带来了更少的停车、更短的队列和沿繁忙路线更加平稳的行驶速度。尽管该研究仍局限于虚拟环境，尚未处理行人、公交优先或真实硬件的所有细节，但它证明了精心设计的众多本地控制器之间的协作，能够把一连串混乱的红灯变成更可预测、更高效的旅程。

引用: Zhang, H. Graph transformer Q-network for collaborative governance and decentralized decision-making in multi-intersection networks. Sci Rep 16, 15549 (2026). https://doi.org/10.1038/s41598-026-45895-2

关键词: 交通信号控制, 多智能体强化学习, 图变换器, 走廊进展, 智能交通