Clear Sky Science · zh

基于稀疏门控专家混合机制的混合噪声环境下水下声矢量到达方向估计

2026-01-25 · 返回目录

在水下倾听隐藏的信号

舰船、潜艇、水下机器人，甚至海洋生物学家都依赖于在海洋中捕捉微弱声音以确定其来源。但海洋环境噪声繁杂：发动机、海浪、海洋生物以及测量设备本身都会产生干扰。本文提出了一种新方法，在噪声混乱且不可预测的情况下仍能精确确定水下声音方向，采用了一种现代人工智能技术，能够学习应对不同类型的噪声，而不是假设噪声简单且均匀。

为何在海洋中定位方向如此困难

为了定位声源，工程师使用一列排列的水下麦克风，称为水听器（hydrophones）。通过比较声音到达每个传感器的微小时间差，他们可以估计声音到来的方向，即到达方向（DOA）估计。传统方法通常假定背景噪声像平滑、均匀的“白色高斯噪声”。而真实海洋很少如此规整。噪声可能是脉冲性的，如突发爆裂；可能具有色性，在某些频率上能量更多；也可能在传感器间不均匀分布。这种多种行为混合的情况称为混合噪声，它破坏了旧算法的假设，使得在条件最困难时算法的精度急剧下降。

更智能的传感器排列

研究者基于一种简单但功能强大的传感器布局：一列直线排列的矢量水听器，这类传感器既测量声压又测量水中的粒子运动。当远处的声源发出波时，波到达每个传感器的时间和相位会因入射角不同而略有差异。系统据此构建协方差矩阵——一个紧凑的总结，反映不同传感器信号随时间的相互关系。该矩阵包含推断方向所需的几何线索，但这些线索被环境中复杂的噪声所纠缠。

将嘈杂数据转化为可学习的模式

神经网络通常处理实数，而协方差矩阵是复值的。因此，团队将其拆分为表示实部和虚部的两个实矩阵，并将它们作为双通道“图像”输入卷积神经网络（CNN）。CNN扫描该矩阵以发现区分真实信号结构与噪声的空间模式。与依赖手工设计公式的方法不同，CNN直接从数据中学习这些特征，从简单的局部关系逐步构建到对定位声源有信息量的更高级模式。

多位专家与一个智能协调器

关键创新出现在CNN之后：一种稀疏门控的专家混合（SMoE）网络。系统不是由一个庞大的单一模型去应付所有情形，而是包含若干较小的专家网络，每个专家针对特定噪声类型（如白噪声、粉红噪声、红噪声、蓝噪声、紫噪声或脉冲噪声）进行专门训练。一个单独的门控网络查看CNN提取的特征，并为每个输入样本决定哪些少数专家最为相关。只有被选中的顶级专家被激活，其输出被组合以产生最终的角度概率估计，从0°到180°。这种设计使模型既具备自适应性——随着噪声条件变化改变听取的专家——又高效，因为避免了每次都运行所有专家。

在严苛、逼真的条件下测试

为了训练该系统，作者首先生成了每个专家仅见到单一噪声类型的数据，使其能够专门化。然后他们在包含六种噪声混合的样本上训练门控网络，以模拟真实的混合环境。他们还在一个大规模且逼真的测试集上评估模型，该测试集包含模拟噪声和实际录制的水下噪声，覆盖广泛的信号强度和数据长度范围。与著名的经典技术和其他深度学习方法相比，SMoE模型在误差更小和成功率更高方面表现稳定，尤其在噪声强或可用数据有限时优势明显。在信噪比为0 dB（信号和噪声功率相等）时，该模型实现了平均角度误差低于一度，而竞争方法在这种情况下可能偏离许多度。

对未来水下感知的意义

通俗地说，这项工作表明让多个专门化的人工智能“听众”共同承担任务，并实时选择其中的若干专家，可以显著提高我们在混乱噪声环境中判断水下声音来源方向的能力。该方法可以推广到简单线阵以外的其他传感器布局，同样的理念——配合智能门控的专家混合——也可用于雷达、机器人等需要在复杂干扰下定位信号的领域。对于依赖可靠水下监听的应用，从导航到环境监测，这种方法提供了一种更灵活、更健壮的“穿噪而听”的途径。

引用: Xu, W., Yi, S., Gu, H. et al. Underwater acoustic vector DOA estimation in hybrid noise environments based on sparsely-gated mixture-of-experts mechanism. Sci Rep 16, 6192 (2026). https://doi.org/10.1038/s41598-026-37217-3

关键词: 水下声学, 到达方向, 混合噪声, 深度学习, 专家混合模型