Clear Sky Science · zh

QPSODRL：一种改进的量子粒子群优化与深度强化学习相结合的无线传感器网络智能聚类与路由协议

2026-01-16 · 返回目录

为互联世界打造更聪明的传感网络

从精准农业到灾害预警系统，无线传感器网络在背后静默监测着我们的世界，从分布在广阔区域的数百甚至数千个微小设备中采集数据。它们最大的弱点也是其显著特征：每个传感器都依赖难以或无法更换的小电池。本文提出了一种新的网络组织与数据引导方式，使电池寿命更长、信息传输更可靠，并能在环境变化时让网络自行适应。

为什么微小设备需要强大智能

在无线传感器网络中，每个节点都能感知、计算和通信，但能量十分宝贵。如果部分节点承担过多工作，它们会提前耗尽，形成无法采集数据的“死区”。为了避免这种情况，设计者通常将节点分成若干簇。在每个簇内，一个节点被选为簇头：它收集邻居的读数并将数据转发到中心基站。选择哪些节点作为簇头、以及数据如何在网络中跳转，是一个复杂的难题，并会随着电池电量的下降而不断变化。传统的基于规则或单一算法的解决方案往往过早收敛到次优模式，或在网络拓扑与能量分布变化时失效。

将量子启发的群体算法与学习机结合

本研究提出了QPSODRL协议，将两种强有力的思想结合起来：用于形成簇的量子启发式群体方法，以及用于路由的深度强化学习引擎。在第一阶段，虚拟“粒子”探索不同的簇头与成员分配方式。它们的行为由一种衡量网络能量分布均匀性的指标——熵——来引导。当能量使用不均衡时，算法鼓励广泛探索新的簇布局；当系统趋于稳定时，则对有前景的方案进行微调。一个特殊的“精英扰动”步骤会偶尔将最优候选向新的方向推动，帮助搜索逃离局部陷阱并避免过度使用同一组高能耗节点。

教会网络学习更好的路径

簇形成后，第二阶段决定每个簇头如何将数据发送到基站。QPSODRL不采用固定路由，而是将每个簇头视为学习过程中的智能体。在每一步，智能体观察自身剩余能量、邻近簇头的能量与距离以及估算的延迟，然后选择下一跳。采用了一种特殊形式的深度Q学习——对决双重深度Q网络（Dueling Double Deep Q‑Network）来评估每个选择的长期价值。作者加入了一个“熵”项以防止系统过早过度自信，从而持续探索替代路径。他们还设计了一个改进的经验回放机制，有意将学习重点放在信息量最大的情形（例如能量低或延迟飙升时），使模型在关键场景中更快提升。

将方法付诸测试

为了评估QPSODRL的性能，作者进行了详尽的计算机仿真，模拟了在不同区域尺寸内分布100和200个节点、以及不同簇头比例的网络。新协议与四种近期先进的对手进行比较，这些对手分别采用粒子群、座头鲸优化、模糊逻辑或其他混合与基于学习的方案。在所有测试设置下，QPSODRL都使网络在更多通信轮次内保持存活，向基站传递更多数据包，并消耗更少的总能量。它还更均匀地分摊了簇头间的负载，表现在每个簇头处理流量的变化更小。这些收益在基站放置于场地边缘、导致部分节点需更长跳距的更困难布局中尤其明显。

对真实系统的意义

对非专业读者而言，关键结论是：使传感器网络既能在全局上优化其结构、又能在局部通过经验学习，能够显著延长其可用寿命。QPSODRL的量子启发聚类保持了能量使用的平衡，而其基于深度学习的路由能在无需频繁人工调整的情况下适应变化。尽管结果基于固定、不移动节点的仿真，但表明未来的传感器部署——从智慧城市到环境观测站——通过采用类似的智能控制策略，可能运行更久、故障更少，并更有效地利用有限的电池能量。

引用: Guangjie, L. QPSODRL: an improved quantum particle swarm optimization and deep reinforcement learning based intelligent clustering and routing protocol for wireless sensor networks. Sci Rep 16, 5526 (2026). https://doi.org/10.1038/s41598-026-35365-0

关键词: 无线传感器网络, 节能路由, 深度强化学习, 群体优化, 网络聚类