Clear Sky Science · zh

通过频域动态与空间增强特征调制实现的实时水下目标检测

· 返回目录

在波浪之下看清世界

海洋世界关系到粮食安全、能源与环境健康,但也极难观察。浑浊的水体、漂浮颗粒和微弱的光线会使得即便是统计海星或检查海底管道这样的简单任务也变得异常困难。本研究提出了一种新的计算机视觉方法,能够帮助水下机器人和摄像机在视野模糊或被遮蔽时,更快、更准确地识别小型海洋生物。

Figure 1. 一种智能轻量级模型如何帮助机器人在浑浊的水下场景中实时清晰识别小型海洋生物。
Figure 1. 一种智能轻量级模型如何帮助机器人在浑浊的水下场景中实时清晰识别小型海洋生物。

为什么水下视觉如此困难

与空气不同,水会折射和散射光线,尤其是构成对比的红色与黄色频段。水下拍摄的图像常常呈现蓝绿色、朦胧且细节贫乏,同时浮游颗粒会产生明亮的逆向散射。像扇贝或海胆这样的小型动物在图像中可能只占几个像素,很容易与岩石、沙地或海草融合。传统为陆地清晰图像设计的目标检测软件往往会漏检这些微弱目标,或将背景杂物误判为真实生物。与此同时,水下机器人与传感器通常受限于硬件资源,因此检测方法不仅要准确,还必须快速且轻量。

读取噪声图像的一种更快方式

作者在一类称为Detection Transformers的近期模型基础上改进,这类模型通过学习图像各部分间的关系来扫描图像,而不是滑动小窗口。他们的变体保持了早期系统RT-DETR的实时速度,但替换为更适合嘈杂水下场景的新骨干网络FasterFDBlock。该骨干将一种称为部分卷积的技巧(只处理部分通道以节省时间)与基于频率的图像视角结合。通过在频域工作,模型能够区分随机的斑点噪声与勾勒动物轮廓的锐利边缘,抑制前者同时保留后者,从而减少不必要的计算。

让小生物保持清晰

深度视觉网络在多次下采样以提取更高层次模式时,常会丢失精细细节。这对识别已经接近可见边界的微小扇贝或海星可能是致命的。为此,研究者重新设计了编码器中的核心注意力模块,提出了名为AIFI-SEFN的结构。简单来说,该模块的一条分支使用注意力机制观察大范围信息,而另一条伴随分支则关注局部纹理与形状。它跨尺度池化并放大全局与局部特征,使用轻量卷积捕捉边缘与模式,然后通过门控机制控制细节的通行量。其结果是全局语境与清晰局部结构的更丰富融合,使得小型生物在崎岖的海底和海草背景中更加突出。

Figure 2. 频率滤波与多尺度特征融合如何将嘈杂的水下图像转化为突出显示的清晰海洋生物。
Figure 2. 频率滤波与多尺度特征融合如何将嘈杂的水下图像转化为突出显示的清晰海洋生物。

跨尺度融合信息

水下图像很少只包含单一尺寸的目标;同一类生物可能在远处显为微小斑点,在前景则是大片区域。简单的浅层与深层特征融合方式(例如直接相加特征图)可能会将小细节淹没在强烈的高层信号下,或让浅层噪声主导场景。新的多尺度特征调制(Multi-scale Feature Modulation)模块首先通过全局池化概括每层“所见”,然后为每个通道自适应地为语义特征与细节特征分配权重。这些权重会归一化为和为一,因此模型必须在每个通道上决定细节或广义语境哪个更重要。该选择性融合增强了真实目标的信号,抑制了岩石、沙地与阴影的干扰,同时几乎不增加额外开销。

方法的效果如何

团队在一个具有挑战性的公开水下图像数据集上测试了他们的方法,该数据集包括海参、海胆、扇贝和海星,许多目标尺寸小、重叠或部分遮挡。与原始RT-DETR模型相比,新系统将标准检测指标(平均精度mAP)从70.4%提高到72.1%,同时参数量减少了超过四分之一,计算量也近乎降低了四分之一。它仍能以超过70帧/秒的速度运行,在典型图形硬件上足够支持实时应用。热图与检测结果的可视化对比显示,改进后的模型能更准确地锁定真实生物,忽略岩石与海草中的混淆纹理,并在浑浊或弱光环境中恢复更多微小或低对比度的目标。

这对水下工作的意义

通俗地说,这项研究展示了如何教会一个精简且快速的模型在地球上最具挑战性的视觉环境之一中看得更好。通过对网络处理噪声频率、局部细节和不同尺度特征的方式进行精心设计,作者使得水下目标检测在准确性与效率之间达成更好的平衡。这种平衡对必须在有限计算资源下快速且可靠决策的自主水下航行器与其他现场系统尤为重要。随着这些方法被推广到更多数据集与嵌入式平台,它们有望帮助科学家监测海洋生物、工程师检查水下结构,以及机器人更有信心地在复杂海底地形中导航。

引用: Cai, S., Zhu, A. Real-time underwater object detection via frequency-domain dynamics and spatially enhanced feature modulation. Sci Rep 16, 14884 (2026). https://doi.org/10.1038/s41598-026-44628-9

关键词: 水下目标检测, 自主水下航行器, 实时视觉, 小目标识别, 频域特征