Clear Sky Science · zh
在复杂水下环境中集成简化的Swin-T与改进EFS-Net,用于注意力引导的水下管道分割
为何关注海底很重要
隐藏在海面之下,庞大的管网输送着现代社会依赖的石油、天然气和电力电缆。如果这些水下管道出现裂缝、腐蚀或移位,可能导致昂贵的停运和严重的污染。目前,大部分检查工作由人类操作员完成,他们需要长时间盯着来自水下机器人拍摄的浑浊视频。本文提出了一种新的人工智能(AI)系统,能够在复杂的水下图像中自动识别管道,即便管道光线昏暗、被“海雪”覆盖或部分埋在沙中也能检测出来。朝着可靠自动化检查迈出的一步,将有助于让近海能源与基础设施的维护更安全、更经济。

在浑浊世界中看清楚
水下影像对计算机来说难以解释。光线随深度迅速减弱,颜色偏向绿色和蓝色,漂浮颗粒产生雾霾和雪状斑点。依赖清晰边缘和对比度的传统图像技术在管道被沙掩、被植物遮挡或被雾气模糊时往往失效。深度学习有所改进,已有若干流行神经网络能在特定数据集中识别出管道。然而这些系统通常专用于某一类水况或摄像设置,一旦面对不同的环境——不同的水体、照明或背景——其准确率会急剧下降。核心挑战是构建一个既准确又具适应性的模型,同时还能高效到足以在真实检查系统中运行。
两脑并用的水下图像处理方法
作者通过构建一种混合AI架构来应对这一问题,该架构结合了两种截然不同的“观察方式”。一条分支基于简化版的Swin Transformer,充当广角观察者,扫描整帧以理解大尺度模式,比如管道在海床上的总体走向。第二条分支改编自EFS-Net并以EfficientNet作为主干,像放大镜一样专注于细节,关注边缘、纹理和薄结构,这些细节能揭示管道的起止处与沙或植被的分界。两条分支处理相同的缩放图像,并将其转换为内部特征图,描述网络认为每个区域可能有什么有意义的结构。
让注意力决定什么重要
简单地叠加两条分支的输出会产生大量冗余信息。相反,该模型使用“注意力”机制逐像素决定哪些细节值得关注。一个三头的交叉注意力模块比较细节分支的特征与上下文分支的特征。本质上,细节分支提出有针对性的问题——“这条边是管道的一部分吗?”——而上下文分支提供全局线索——“在这个位置和方向出现的这条线是否有可能是管道的一部分?”一个称为CBAM的额外精炼步骤进一步增强来自可能为管道区域的信号并抑制背景噪声,如岩石、藻类或悬浮颗粒。随后,解码网络逐步重建出与原始尺寸一致的掩码,将每个像素标记为管道或非管道。

对系统进行检验
为评估该设计在实践中的效果,研究人员组建了一个大型且具有挑战性的数据集,称为HOMOMO。它包含超过12万张真实海床管道的彩色图像,覆盖了1.2公里管道沿线的多种且常常恶劣的条件:低光照、海雾、“海雪”、沙流以及茂密植被。他们在该集合的一部分上训练模型,并将其与常用系统如UNet、DeepLab、SwinUNet、TransUNet、Mask2Former以及若干版本的YOLO目标检测器进行了比较。在HOMOMO上,他们的混合模型在管道像素分割上的平均交并比约为98%,远高于最好的竞争方法。同样重要的是,在未重新训练的情况下,将模型用于两个截然不同的图像来源——一个合成的Roboflow数据集和真实的YouTube视频片段——模型仍表现强劲,表明它能应对新的摄像机和水体条件。
对真实海洋的意义
对非专业读者而言,结论是该AI系统能够在对于传统方法来说过于嘈杂和不一致的视频帧中可靠地描绘出水下管道轮廓。通过将场景的全局视角与对边缘和纹理的敏锐观察相结合,并利用注意力融合这些视角,模型在无需巨量计算资源的情况下实现了高精度。在实际层面上,这类工具可以帮助自主机器人持续监测长段海底基础设施,标记可能的损伤或掩埋位置以供人工复查。尽管对极细或完全被覆盖的管道仍存在挑战,但这一方法标志着向更安全、更自动化的海底管网检测迈出了重要一步。
引用: Hosseini, N., Mohanna, F. & Moghimi, M.K. Integrating simplified Swin-T with modified EFS-Net for attention-guided underwater pipelines segmentation in complex underwater environments. Sci Rep 16, 6987 (2026). https://doi.org/10.1038/s41598-026-38081-x
关键词: 水下管道, 图像分割, 深度学习, 海洋检测, 变换器网络