Clear Sky Science · zh

一种将状态图与任务图结构建模相结合的多智能体强化学习调度算法用于共享出行派单

2026-01-17 · 返回目录

为何更智能的共享出行对城市生活至关重要

任何曾经长时间等待网约车，或看到空驶车辆从繁忙路口驶过的人，都能体会到实时协调城市交通的难度。本文提出了一种新的基于人工智能的派单系统，旨在更快、更高效地匹配乘客与共享车辆，减少无效里程并缩短在拥挤、瞬息万变的城市交通中的等待时间。

从简单匹配到错综复杂的城市交通

网约车最初的理念很简单：一名司机、一名乘客、一趟行程。今天的城市街道则截然不同。平台需要同时调度成千上万的车辆和乘客，经常将多名乘客拼在一辆车内，并将车队在整个区域内进行调度。需求分布不均——市中心可能充斥大量请求，而其他区域则相对平静——而且情况每分钟都在变化。传统的基于规则的派单或简单的“就近车辆”策略在这种环境下难以胜任，导致等待时间长、车辆利用率低以及不必要的绕行。图

展示了这些系统必须如何从简单的一对一匹配演进为复杂的多对多共享关系。

不是一锅乱炖，而是两张相连的地图

作者提出了一个名为 DualG-MARL 的新框架，将派单问题视为两张重叠但各自独立的“地图”。一张地图描述车辆：它们的位置、座位数，以及是否空闲或已载客。另一张地图描述出行请求：谁要出行、从哪里到哪里、以及何时出发。每张地图被建模为图，点代表车辆或请求，边连接在时空上接近的节点。通过在保持车辆和乘客信息分离的同时建立链接，系统保留了各自侧的结构，而不是把所有信息混成一团难以解析的画面。

AI 如何学习匹配乘客与车辆

在这两张图之上，系统采用一类称为多智能体强化学习的机器学习方法。每辆车被视为独立的决策者或“智能体”，在附近请求中做选择。智能体共享一个共同目标：减少等待时间、避免过度绕行并保持车辆高效载客。模型扫描两张图以提取模式，然后使用注意力机制——一种突显最相关连接的 AI 工具——在两张地图间链接合适的车辆和乘客。为保证决策的快速性与稳定性，系统不会考虑所有可能的配对，而是为每辆车构建一个候选短名单（Top-K 集合），并通过座位容量、接客延迟和可接受的绕行长度等硬性规则进行过滤。一个集中式的学习器评估整个车队的表现，而单车在实时运行时遵循简单的局部规则。图

显示了从车辆图与任务图经过匹配模块到最终分配的这一流程。

在真实纽约市行程上的测试

研究者在来自纽约市出租车与豪华车委员会的大规模行程数据上测试了 DualG-MARL，重点覆盖曼哈顿与皇后区。他们将该方法与多种现有方法比较，包括人工设计的规则、数学优化以及先进的基于学习的派单器（如 CoopRide）。在两个区中，该系统在四个关键指标上都创下了新基准：缩短了乘客平均等待接车时间、提高了成功服务的请求比例、增加了车辆载客时间占比，并略微减少了由拼车引起的额外里程。值得注意的是，这些改进并没有显著增加计算成本：通过将注意力限制在经过筛选的有前景匹配集合上，该方法保持了可用于实时调度的速度。

对日常乘客和城市的意义

通俗地说，这项研究表明：将城市网约车系统表示为两张结构化网络——一张针对车辆、一张针对乘客——并通过精心设计的学习过程使其相互作用，可以让拼车更智能、更具响应性。对乘客而言，这意味着更短的等待和更可靠的接驾；对司机和平台而言，这意味着更高的车辆利用率和更少的空驶；对城市而言，这预示着在不增加车辆的情况下，用更少的道路空间运送更多人、缓解拥堵的可能性。作者还指出，类似的基于图和多智能体的思路最终可以推广到其他服务领域，从无人驾驶出租车车队到应急响应，为管理现代城市复杂且不断变化的流动提供更有序的方案。

引用: Sha, J., Song, M., Sui, G. et al. A multi-agent reinforcement learning scheduling algorithm integrating state graph and task graph structural modeling for ride-sharing dispatching. Sci Rep 16, 5461 (2026). https://doi.org/10.1038/s41598-026-35004-8

关键词: 共享出行派单, 多智能体强化学习, 图神经网络, 城市出行, 动态匹配