Clear Sky Science · zh

用于水下垃圾实例分割与分类的自适应轻量级 Mask R-CNN 模型，助力可持续海洋垃圾管理

2026-03-18 · 返回目录

为何清理水下垃圾至关重要

在海浪之下很深处，塑料瓶、塑料袋、渔网和其他垃圾正在海底堆积并在沿海水域漂浮。这些隐藏的垃圾危害海洋生物，并增加监测海洋健康的难度。潜水员、水下机器人和远程摄像机能够提供帮助，但它们首先必须在混浊、有色的水中清晰地看到并识别垃圾。本文提出了一种新的计算机视觉系统，使水下机器人即便在能见度差的情况下也能实时检测、描绘轮廓并分类垃圾，为未来的海洋清理工作提供了有力工具。

海底视觉为何更困难

水下场景比空气中拍摄的图像更难以解析。随着光线在水中传播，红色首先消失，随后是其他颜色，图像因此以蓝绿为主调。悬浮颗粒散射光线，降低对比度并产生一层雾霭。对于试图在明亮且不断变化的海床上找到浅色塑料袋的机器人或摄像机来说，这是一个严重挑战。传统的图像修正方法如简单的对比度调整能有些帮助，但在随深度、浊度或光照变化时常常失效。许多现有的深度学习检测器要么难以精确描绘垃圾轮廓，要么太过“沉重”，无法在自主水下航行器上运行的小型计算机上实时使用。

一种更快、更轻的水下垃圾检测方法

作者提出了一种针对这种恶劣环境的“自适应轻量级 Mask R-CNN”系统。总体而言，该系统遵循一条简单的链路：先对原始水下图像进行增强，然后提取关键视觉特征，接着生成可能的垃圾区域建议，最后为每件垃圾绘制精确轮廓并将其归类为瓶子、塑料袋或渔网等类别。为保证系统能满足实时需求，它采用了 MobileNetV3 这一紧凑但功能强大的神经网络作为主干特征提取器。该主干与一个改进的区域建议模块配合，该模块针对海底常见的小型、不规则和部分遮挡垃圾进行了调优。

让混浊图像看起来更自然

一个核心组成部分是在检测之前运行的专门增强模块。该模块在训练时受一种关于不同颜色随深度衰减的物理模型指导，旨在逆转水对光的影响。一个卷积神经网络估计光在水中传播的距离以及每个颜色通道被吸收的强度，然后重建出更清晰、更自然的场景版本。随后还会进行亮度调整、对比度拉伸和适度的降噪处理，从而生成边缘更锐利、色彩更真实的图像。这些校正使后续阶段在繁杂、低对比度背景中更容易识别瓶子、塑料袋和其他物品。

系统如何学习描绘垃圾轮廓

图像增强后，MobileNetV3 会将其转换为多尺度的特征图堆栈，概括形状、纹理和颜色模式。一个改进的建议模块融合了来自多个尺度的信息，从而既能处理大型渔网，也能识别微小塑料碎片。它不再依赖人工选择的模板尺寸，而是从训练数据中学习锚框形状并强调与场景最匹配的那些，从而减少误报。对于每个有前景的区域，最终分支使用精确的采样方法细化边界，保留边缘处的细节。结果是描绘出每个物体轮廓的掩码，而不仅仅是粗略的包围框，这对估算垃圾数量或规划机器抓取与收集至关重要。

在真实条件下验证性能

团队在多个水下垃圾图像集上训练和测试了该系统，包括带有严重雾霾、低光和色彩失真的挑战性场景。为模拟真实下潜，他们还使用了对比度变化、翻转和模糊等数据增强手段。增强后的模型取得了约 88% 的平均精度（mAP）和超过 83% 的重叠得分，优于标准 Mask R-CNN 以及一些更快的一阶段检测器（如 YOLO 变体），同时仍能以约 30 帧每秒的速度运行。它在不同类型的塑料上表现良好——从瓶子和塑料袋到微塑料——即使在先前未见过的数据集和高浊度水体中也保持较高准确率，表明其能适应多变的野外条件。

这对更健康的海洋意味着什么

简而言之，这项研究表明现在可以构建紧凑的视觉系统，不仅能在小型水下机器人上实时发现水下垃圾，还能准确地描绘轮廓并进行分类。通过将物理感知的图像清理与高效的检测与分割流程相结合，所提出的方法在速度与精度之间实现了实用的平衡。这类系统可为未来的自主航行器队伍提供动力，用以绘制垃圾热点图、跟踪垃圾随洋流的移动并协助针对性的清理行动。尽管仍需进一步工作来应对罕见垃圾类型和更广泛的水文条件，但这项研究标志着向更智能、更可持续的海洋垃圾管理迈出了实质性一步。

引用: Deluxni, N., Sudhakaran, P., Alroobaea, R. et al. Adaptive lightweight mask R-CNN model for underwater debris instance segmentation and classification towards sustainable marine waste management. Sci Rep 16, 14057 (2026). https://doi.org/10.1038/s41598-026-44542-0

关键词: 水下垃圾检测, 海洋污染, 计算机视觉, 自主水下航行器, 塑料废弃物