Clear Sky Science · zh

YOLO-MFD:一种用于预制岸线水下目标检测的多尺度特征与动态头框架

· 返回目录

更聪明的城市岸线“水下之眼”

随着城市在河湖沿岸建设更多围墙、码头和预制挡坡,许多关键的工程结构部分淹没在水下。检查这些构件是否稳固、是否开裂或被碎屑覆盖变得困难,尤其是在浑浊、浅水且能见度差的环境中。本文提出了 YOLO-MFD——一种新的计算机视觉系统,能帮助水下机器人更可靠、更快速地在岸线附近发现小而微弱的目标,即使在水体混浊、场景拥挤的情况下也能表现良好。

为什么水下影像如此难以解读

河流、湖泊和城市岸边的水体很少清澈透明。光被吸收和散射,色彩偏向绿色或蓝色,悬浮颗粒模糊了边缘。小型生物、海洋垃圾或预制岸块的缺陷往往体积小、对比度低且密集分布。许多最初为清晰街景设计的常规目标检测系统容易漏检这些目标或将其与背景混淆。同时,用于岸边检测的巡检机器人和嵌入式设备计算能力有限,因此任何解决方案都必须兼顾准确性和效率。

为浑浊水域设计的三段“智能大脑”

YOLO-MFD 基于流行的实时检测家族 YOLO,但将其内部“智能”分为三个协同阶段重塑。首先,一个名为 CUMANet(跨尺度统一多尺度注意力网络)的新骨干网络学习在提取图像特征时关注更广的上下文。它采用并行分支和一种特殊卷积,训练时表现为多分支模块,而部署时简化为单一高效运算。这有助于网络越过局部噪声、捕捉长程线索,并在浑浊与色偏条件下保留重要细节。

Figure 1
Figure 1.

在不同尺度上保留微小线索

第二阶段,适应性特征调制(AFM),解决了视觉系统的一个常见弱点:在融合粗粒度和细粒度信息时,小尺度细节往往被淹没。AFM 通过先对齐尺寸与通道,再为每个分支计算温和且独立的门控,来融合两张特征图。AFM 不强制单一尺度占主导,而是让在各自带有有用信号时共同贡献,并加入残差捷径以避免丢失微弱但重要的模式。这种平衡的多尺度融合对识别小海参、海星或几乎与背景融为一体的混凝土裂缝尤为有效。

更灵活的最终判决单元

最后阶段 DPNDyHead(双池化与归一化动态头)在系统做出物体类别与位置判断前对特征进行精炼。它借鉴了可变形卷积的思想,通过调整采样点来更好地追踪水下模糊或变形的形状。为处理尺寸差异很大的目标,DPNDyHead 在尺度上同时使用平均池化与最大池化,融合全局语境与边缘或纹理等尖锐局部响应。一个归一化步骤在生成任务特定激活前稳定特征统计,减少色彩偏移与光照不均的影响。结合这些技巧有助于将分类置信度(物体是什么)与定位精度(物体在哪里)更好地对齐。

Figure 2
Figure 2.

在真实世界中的表现如何?

作者在两个来自养殖与近海养殖区的公开水下数据集上测试了 YOLO-MFD,这些数据集包含许多小而密集的目标以及严重的图像退化。在 DUO 和 UDD 两个数据集上,该新框架的表现优于传统的两阶段检测器、无锚方法、现代基于 Transformer 的模型以及近期的 YOLO 变体。它在平均精度(mAP)和召回率上都取得更高值——意味着既找到了更多真实目标,又减少了错误——同时仅使用几百万参数和适度的计算开销。详尽的消融实验表明三大模块(CUMANet、AFM、DPNDyHead)各自带来了可测的提升,三者结合呈现出精度、鲁棒性与速度之间的最佳平衡。

为更安全的岸线提供更清晰的洞察

在实践层面,这项工作为水下机器人与监测系统提供了一种更清晰、更可靠的方式来观察城市岸线与人工河堤下的状况。通过设计一个有针对性地应对水体浑浊、尺度失衡与预测错位的目标检测器,作者提供了一个能更好地跟踪基础设施健康、支持生态调查并指导预制岸线结构智能管理的工具。随着后续工作拓展到更广泛的环境并探索更轻量的模型,像 YOLO-MFD 这样的办法有望成为常规水下检测的重要组成部分,帮助维护沿海城市与内陆水道的安全与良好管理。

引用: Gang, Y., Li, T., Li, S. et al. YOLO-MFD: a multi-scale feature and dynamic head framework for prefabricated shoreline underwater object detection. Sci Rep 16, 10971 (2026). https://doi.org/10.1038/s41598-026-45591-1

关键词: 水下目标检测, 岸线基础设施, 计算机视觉, 自主水下航行器, 深度学习