Clear Sky Science · zh

基于XP-HARQ辅助NOMA的速率自适应：去中心化多智能体深度强化学习视角

2026-05-04 · 返回目录

为什么更快、更可靠的无线链路至关重要

随着从工厂机器人到家庭传感器等日常物品接入互联网，我们的无线网络必须以极短的延迟和几乎零失败率传递小体量消息。本文探讨了一种在拥挤空中资源中推送更多数据同时仍满足严格可靠性与时延目标的新方法，这一挑战正处于未来6G与先进物联网系统的核心。

在同一频谱上传递多路声音

传统无线系统通过为每个设备分配独立的时间或频率资源来避免干扰，就像共享线路上轮流通话的方式。非正交多址接入（NOMA）是一种较新的思路，允许多个设备在相同资源上同时发送信号，由基站对重叠的信号进行区分和解码。这能提高容量，但也要求对数据速率和发射功率进行更精细的控制，尤其是在设备必须满足例如一毫秒时延和极低误码率这样的超可靠低时延需求时。

让重传更聪明，而非更长

为确保消息正确到达，目前网络常依靠自动重传请求（ARQ）：如果数据包损坏就重发。尽管这能提高可靠性，但简单重发会浪费宝贵的空中资源，并在大量设备活跃时导致队列积压。一种更高效的方法称为跨包混合自动重传请求（XP-HARQ），它在每次重传中巧妙地将新信息与旧信息混合。每次重传不再只是重复相同的比特，而是携带对失败数据的额外细节与新内容的混合，在每次传输尝试中压榨出更多有用信息。

让设备自己学习良好行为

将共享信道接入与智能重传结合，形成了一个强大但高度复杂的系统。基站看到的信号受到许多因素影响：时变的无线条件、用户间的重叠以及多轮数据包混合。经典的数学优化方法在这种情形下举步维艰，尤其当设备只知道过时的信道质量信息时。作者改为将每个物联网设备视为一个学习智能体，它随时间调整自身的发送速率。利用人工智能的一个分支——多智能体深度强化学习，这些智能体尝试不同的速率选择，观察数据包是否成功，并逐步发现能让网络既快速又可靠的策略。

竞争式与合作式学习

研究对比了两种学习风格。在合作式中，所有设备共享一个共同目标：最大化整个网络的有效吞吐量。在竞争式中，每个设备主要关注自身的长期数据速率，同时仍遵守可靠性约束。两种方法都使用了一种能处理连续速率选择并防止价值估计过度乐观的先进学习算法。仿真结果表明，在小规模网络中，集中式学习——由单一控制器为所有设备决策——可行，但随着设备数量增加，它很快变得不稳定且低效。去中心化的多智能体方法具有更好的可扩展性，而竞争式版本在各种信号条件下通常提供最稳定且最高的吞吐量。

对未来互联设备的意义

对普通读者来说，核心信息是未来的物联网网络可能不再由固定公式运行，而是由内置在设备中的大量小型学习智能体组成的群体来驱动。通过将共享信道接入、更智能的重传机制与去中心化学习融合，所提出的系统在保持极低故障概率的同时，以更少的延迟传输更多数据。实际意义在于，工厂、车辆和医疗传感器能够依靠无线链路即时应对变化的条件，保持高速和可靠，而无需频繁人工调整。

引用: Wang, J., He, F., Shi, Z. et al. Rate adaption of XP-HARQ assisted NOMA: a decentralized multi-agent DRL perspective. npj Wirel. Technol. 2, 18 (2026). https://doi.org/10.1038/s44459-025-00024-9

关键词: 超可靠低时延通信, 物联网, 非正交多址接入, 混合自动重传请求, 多智能体强化学习