Clear Sky Science · zh

DRLO-VANET：一种基于深度强化学习的VANET卸载框架，用于低延迟与节能的任务执行

2026-03-30 · 返回目录

为什么更智能的车载计算很重要

现代汽车，尤其是自动驾驶车辆，正逐渐成为移动的计算平台。它们持续解析摄像头画面、雷达、地图和交通信息，以保障乘客安全并维持交通流畅。但这类计算既耗时又耗能。如今的车辆要么在车内处理数据，要么将其发送到附近的路边计算设备。错误的选择可能导致延迟、任务丢失或电量浪费。本文探讨了一种新的方法，利用能够实时适应交通与网络状况的学习算法，自动并智能地做出这些选择。

车辆、道路与附近的辅助节点

在未来城市中，车辆不仅会相互通信，还会与部署在路边的小型计算单元交互。这些路边单元类似于本地的微型数据中心，距离比云服务器近得多。接近路口的车辆可能需要运行一些计算密集型任务，例如融合摄像头与传感器数据以检测被遮挡的行人。它可以在车内受限的处理器上执行，也可以把任务卸载到路边单元。最佳选择取决于车流密度、各路边计算单元的负载、无线信号强度以及任务的紧迫程度。由于这些条件会秒级变化，静态规则（例如总是使用最近的路边单元）在真实交通场景下往往失效。

让系统自行学习

作者提出了DRLO-VANET框架，使系统通过试错学习来获得良好的决策，而非依赖人工设计的规则。在他们的设置中，每辆车被视为一个决策体，观察周围环境——车辆密度、信号质量、自身电量、每个任务的大小与截止时间以及路边单元的负载情况。学习代理随后在若干选项中做出选择：本地处理、将任务发送到若干路边单元之一，或甚至将任务在车内与路边之间拆分。每次决策后，系统会衡量任务耗时、能耗、是否在截止前完成、路边单元的负载平衡情况以及车辆在移动过程中切换路边单元的次数。将这些结果合成为一个反馈得分，促使学习代理随着时间推移朝更优选择调整。

构建逼真的测试平台

为了评估学习到的策略在实际中的可行性，研究者构建了一个详细的计算机仿真平台，使用 ns-3 网络模拟器并与强化学习工具包相连。他们的虚拟城市包含交叉路口、具有不同速度的移动车辆，以及按网格布局放置的路边单元，使覆盖区域像真实部署那样重叠。无线链路遵循针对开放高速公路和密集城市“峡谷”环境的现实模型，在后者建筑会引起反射和衰减。各车辆上会到达不同大小和截止时间的任务，路边计算单元则以队列与有限处理能力建模，因此在大量车辆同时卸载时可能出现拥塞。研究中使用了两种流行的学习方法：深度Q网络（DQN）和软演员-评论家（SAC），在大量模拟行驶与信道条件下训练决策策略。

学习方法的表现如何

团队将DRLO-VANET与三种常见替代方法进行了比较：始终在车内处理、始终卸载到最近的路边单元，以及一种只追求最低即时延迟的不考虑后果的“贪婪”策略。在轻度交通下，各方法表现相当，但随着车辆增多，简单规则的弱点显现。最近单元卸载会使少数路边计算单元过载，产生长队列。贪婪策略起初能最小化延迟，但会导致车辆频繁在路边单元之间切换，增加开销并带来不稳定。相比之下，学习到的DRLO-VANET策略更均匀地分配负载，避开明显较差的无线链路并限制不必要的切换。在模拟中，它最多可将任务延迟降低约40%，能量消耗降低30–35%，在中等交通下保持超过90%的任务按时完成，并相比贪婪方法将切换事件大约减半。

这对普通司机意味着什么

对非专业读者来说，关键结论是车辆与道路基础设施可以比现有方式更智能地协作。与僵化规则不同，基于学习的控制器可以观察道路与网络的繁忙程度，并在后台为每个数字任务悄然选择执行位置，从而保持响应快速、延长电池寿命并防止路边设备过载。尽管该研究基于仿真而非真实车辆，但它指向了一个未来：自动驾驶所需的“思考”可在车辆与附近基础设施之间自动分配，使先进的安全与导航服务在拥挤且快速变化的交通中更可靠。

引用: Neelima, S., Sree, S.R. & Ramakrishnaiah, N. DRLO-VANET: a deep reinforcement learning-based offloading framework for low-latency and energy-efficient task execution in VANETs. Sci Rep 16, 10582 (2026). https://doi.org/10.1038/s41598-026-46336-w

关键词: 自动驾驶车辆, 边缘计算, 车载网络, 强化学习, 任务卸载