Clear Sky Science · zh

DMARS_WGO：一种由深度强化驱动的混合元启发式智能自适应优化方法

2026-04-22 · 返回目录

对复杂问题的更智能搜索

从设计更轻的飞机零件到调优机器学习模型，许多现代挑战归结为同一个问题：如何在巨大的可能性空间中搜索，找到一个真正优秀的解？本文提出了一种新型“智能”搜索引擎，称为DMARS_WGO，它在探索过程中从经验中学习，帮助工程师和科学家更快且更可靠地获得更好的设计。

为何常规方法难以为继

传统优化技术，如梯度下降和线性规划，仅在可能性空间平滑且良性时表现良好。真实的工程问题很少如此。它们通常布满多个峰谷、突变的悬崖以及高维的扭曲。在这种崎岖的地形上，传统方法很容易卡在附近的一个小山头，而不是找到最深的谷——真正的最优解。过去几十年，研究人员转向所谓的元启发式算法，这些算法从自然、物理和人类行为中获得灵感。这些方法推动候选解群体在空间中移动，模仿鸟群集结、捕食者狩猎或材料冷却的过程。尽管强大，但许多此类技术仍难以在两种相互竞争的需求之间取得平衡：对新领域的广泛探索与对有前景区域的谨慎利用。

两种动物隐喻，一个核心理念

作者基于两种近期的动物启发式优化器：海象优化器（Walrus Optimizer），擅长在有吸引力的点周围微调（利用），以及瞪羚优化算法（Gazelle Optimization Algorithm），擅长广泛、敏捷的漫游（探索）。早期工作已经将这些行为组合成混合方法，但这种组合在很大程度上是硬编码的：固定公式或时间表决定何时漫游何时聚焦。这种僵化意味着算法仍可能过早下结论或在复杂或高维问题上漫无目的地徘徊太久。新工作将这种海象—瞪羚混合重新构想为不仅会移动，而且会根据搜索自身的反馈学习如何移动的系统。

为群体引入学习

第一个提出的方法AIRE_WGO引入了一种称为Q学习的学习机制。算法不再遵循固定脚本，而是观察来自其候选解群体的简单信号：它们的分布广度（多样性）以及最佳解改进的速度。这些观测定义了搜索的当前“状态”。对于每个状态，Q学习模块逐步发现更适合采取瞪羚式的探索还是海象式的利用。成功的决策——那些带来更好解的决策——会被奖励，因此系统在类似情况下更可能重复这些决策。AIRE_WGO还调整其内部步长，并在进展停滞时引入受控随机变异，帮助其从死胡同中脱身。

为更艰难地形配备双“大脑”

论文的核心是DMARS_WGO，它更进一步，为优化器配备了两个互补的学习“大脑”。一个是AIRE_WGO中使用的表格式Q学习，当情形可用几个粗略类别概括时，它简单且快速。另一个是深度Q网络（DQN），这是一个小型神经网络，能够捕捉多样性、改进速率和停滞迹象与良好决策之间更细微的模式。在每次迭代中，两个学习者都会提出行动建议——倾向于瞪羚式的漫游、海象式的聚焦或两者的混合。一个基于当前多样性、最近进展和停滞迹象计算出的混合系数，将它们的建议平滑地权衡为单一动作。信息也在两者之间双向流动：来自简单学习者的经验丰富了神经网络的训练数据，而网络蒸馏出的知识则定期精炼简单学习者的决策表。这种协作设置帮助优化器连续地适应其行为，而不是突然切换。

方法检验

为了检验这一额外智能是否真正带来收益，作者在两个广泛使用的测试集（CEC 2017 和 CEC 2022）以及六个真实工程设计任务（包括弹簧、压力容器、齿轮传动和支撑结构）上对DMARS_WGO进行了基准测试。这些问题刻意具有挑战性，包含许多误导性的局部最优和严格的设计约束。在数十个测试函数上，DMARS_WGO通常取得最佳的平均性能，并且运行间结果非常稳定。统计检验确认，它相对于另外九种先进优化器的优势不太可能是偶然造成的。重要的是，这种性能改进并未带来不可接受的计算代价：尽管训练神经网络增加了一些开销，但总体工作量仍然以评估候选设计为主，正如标准群体方法一样。

实践中的意义

对于非专业读者，关键结论是：DMARS_WGO表现得像一支会边学边做的搜索团队，能够实时学会如何在侦察新领域和深入考察有前景发现之间分配时间。通过仔细监测进展迹象和停滞迹象，并让两种不同的学习模块引导其动作，算法能更可靠地在困难的高维空间中锁定高质量设计。这使其成为未来工程工具的有吸引力的构件，能在从机械部件到机器学习模型的复杂系统中自动调优，而不需要人工专家对每一步搜索进行微观管理。

引用: Yousif, N.R., El-Gendy, E.M. & Haikal, A.Y. DMARS_WGO: a deep reinforcement-driven hybrid metaheuristic for intelligent adaptive optimization. Sci Rep 16, 13156 (2026). https://doi.org/10.1038/s41598-026-46134-4

关键词: 元启发式优化, 强化学习, 群体智能, 工程设计, 深度Q网络