Clear Sky Science · zh

一种具有多尺度特征整合的轻量级混合注意力网络用于水下声学目标的智能识别

2026-05-27 · 返回目录

倾听波浪下的船舶

海洋中充斥着来自船舶、动物和自然力的声音，区分这些声音的来源对安全、防御和海洋生物保护至关重要。本研究提出了一种智能且紧凑的监听系统，仅凭水下声学特征就能区分不同类型的船舶。通过精心设计计算机“听”和处理信号的方式，作者表明可以在极低计算开销下实现高精度识别，从而为广泛、低成本的水下监测铺平道路。

为何船舶声音重要

现代海洋是繁忙的通道，发动机与螺旋桨的低频轰鸣可以在水下传播很远。能够识别船舶位置与类型有助于导航、搜救与监视，也让科学家跟踪人类噪声对鲸类、鱼类及脆弱栖息地的影响。传统声纳系统面临挑战，因为水下声波容易被海浪、洋流和回声扭曲，信号还与自然背景噪声混杂。此外，早期的识别方法高度依赖人工专家或手工调优规则，难以适应变化且无法扩展到传感器如今收集的大量数据。

教机器在水下听

为应对这些挑战，研究人员构建了一个监听流水线，在信号进入主学习引擎前将原始声音重塑为紧凑描述。首先，来自两个真实世界船舶噪声数据库的录音被重采样到统一采样率并切成五秒片段。每个片段随后被复制并进行三种轻微变换：在较窄范围内改变音高以模拟多普勒效应、伸缩速度以模拟船舶运动变化，以及加入真实感的有色噪声以模拟海洋背景嗡鸣。这些步骤使训练数据增加三倍，并让系统见到同一船舶的多种合理变体，从而降低对录音细微差异的敏感性。从每个片段中，系统提取简单且快速的特征，捕捉声音的强度、粗糙度和音质特征，包括过零点率、整体能量、其频谱与人类听觉尺度的相似度，以及音调在音高类别间的分布，最终形成定长的数值指纹。

Figure 1. 一个紧凑的 AI“耳朵”如何在海底聆听并根据水下声音区分不同类型的船舶。

用于声音的紧凑“大脑”

方法的核心是一种称为深度可分离卷积自适应变换器（Depthwise Separable Convolutional Adaptive Transformer，简写）的模型，旨在在准确性与轻量性之间取得平衡。它以特殊的卷积模块开始，这些模块像许多小滤波器一样监听特征序列中的短期模式，例如螺旋桨的节律脉动或发动机的重复周期，同时保持计算量低。其上并行运行两个变换器分支，每个分支以不同的细节层次观察较长的声学指纹片段。这些分支使用注意力机制决定序列中最关键的部分，然后通过汇聚操作提取总体行为的摘要。一个自适应融合阶段学习为每个输入对两个分支赋予不同权重：当局部细节重要时偏向某一分支，长程结构更有信息时偏向另一分支，最后将紧凑摘要传给输出最可能船舶类别的最终分类器。

将系统投入测试

作者在两个知名的水下船舶噪声集合上评估了他们的设计：一个是加拿大近海的长期数据集，另一个来自西班牙沿海。在两种情况下，模型仅看到五秒片段，并需将其分配到诸如货船、客船、油轮、拖船或按大小分组等宽泛船舶类别。该系统在第一个数据集上取得约98.8%的准确率，在第二个数据集上约为99.2%，同时仅使用约五十万个可训练参数和每次预测几百万次基本运算。这使得它比许多现有深度学习模型更小、更快，但在准确性上仍能匹配或超越它们。对模型内部表示的可视化分析显示，不同船舶类型的片段形成了明显分离的簇，精确率、召回率和受试者工作特征曲线等标准度量也都证实系统很少将一种类别误判为另一种。

Figure 2. 从原始水下船舶噪声，经过特征提取，到一个将船舶类型分离的 AI 模型的逐步过程。

这对海洋意味着什么

简而言之，这项工作表明，一个小型、精心设计的监听系统可以在嘈杂的真实海洋环境中可靠地区分船舶类型，并且响应足够快速以支持近实时应用。通过将简单而信息量大的声学特征与平衡局部细节与长期模式的混合模型相结合，作者为未来可部署在浮标、机器人或码头站的水下监测设备提供了实用蓝图。这类工具可用于管理航道、支持噪声污染的环境研究以及改进自主声纳系统，同时计算需求低到可以运行在较为有限的硬件上。

引用: Mahmud, NA., Zhang, T., Iqbal, Y. et al. A lightweight hybrid attention network with multi-scale feature integration for intelligent recognition of underwater acoustic targets. Sci Rep 16, 16388 (2026). https://doi.org/10.1038/s41598-026-47540-4

关键词: 水下声学, 船舶噪声, 声纳识别, 深度学习, 海洋监测