Clear Sky Science · zh

YOLO-Starfish:鱼类目标检测学习复杂的水下特征

· 返回目录

为何在水下识别鱼如此困难

从气候变化到过度捕捞,了解水面下发生的事情至关重要。科学家和渔业管理者越来越依赖水下相机来计数和识别鱼类,但它们采集的图像常常浑浊、呈蓝绿色,并充斥着重叠的生物。手工审查成千上万小时的视频既慢又容易出错。本文介绍了 YOLO‑Starfish,一种为水下机器人和相机设计的紧凑人工智能系统,旨在帮助在这些困难条件下自动发现鱼类,同时发布了一个新的、细致的淡水鱼图像数据集。

Figure 1
Figure 1.

相机眼中的水下世界

水下目标检测并非只是普通图像分析加上一点水的影响。光在河流和湖泊中的表现截然不同:红色波长迅速消失,颗粒会在多方向散射光线,可见度能在几米内从清澈变为浑浊。鱼本身又增加了难度。不同物种可能外观相似,同一物种的个体从幼年到成年体型差异很大,且它们常常重叠、藏在植物间或进出阴影。许多现有的 AI 方法是在相对干净、光照良好的图像上训练,很少见到如此混乱的场景,因此在野外部署时表现欠佳。

构建真实的鱼类照片集合

为了解决这一差距,作者首先组建了淡水水下鱼类数据集(Underwater Freshwater Fish Dataset,UFFD),这是一个包含真实世界水下图像的大型集合。他们收集了来自多样淡水栖息地的公开视频,按规则间隔自动截取帧,然后精心挑选并标注高质量图像。研究者没有只针对几种常见的鲤科,而是决定标注每一种可识别的鱼类,最终得到 19 个类别,其中包含一个“未知鱼”类,用于无法自信识别的个体。最终数据集包含 18,594 张图像(16,904 张独立图像),覆盖了广泛的水体清晰度、光照条件、相机距离和鱼体尺寸。重要的是,物种计数呈现“长尾”分布:少数物种常见,而许多物种稀有——这与真实生态系统相似。

Figure 2
Figure 2.

一种更智能的退化图像处理方法

在此数据集基础上,团队构建了 YOLO‑Starfish,这是流行的实时检测器 YOLOv8 的改进版本。推动升级的两个关键思想。首先,C2Star 模块改变了网络合并内部特征的方式。它不是简单地将模式相加,而是在所谓的“星操作”中逐元素相乘。这模拟了光在水中传播时实际如何被削弱的过程,在那里信号是按比例缩放而不仅仅被噪声掩盖。从数学上讲,这种乘法使网络在不变得臃肿的情况下能够表示更复杂的形状和颜色组合,这对于电池供电、计算能力有限的水下机器人至关重要。

让网络自己决定什么才重要

第二个创新是注意力驱动增强模块(Attention‑Driven Enhancement Module,ADEM),它关注每幅图像中哪些信息是值得信赖的。由于水常常剥夺某些颜色通道——尤其是红色——将每个颜色同等对待的常规做法会误导检测器。ADEM 将所有颜色通道信息压缩成一个估计通道总体可靠性的引导值。然后将这个全局提示与空间注意力结合,空间注意力突出图像中特定区域,使用一种简单的“取最大值”规则替代直接求和。在颜色线索强烈的场景中,模型更多依赖通道信息;当颜色被冲淡时,它更依赖形状和边缘等空间模式。最终生成的注意力图以灵活、数据驱动的方式用于增强或抑制图像中的特征。

YOLO‑Starfish 表现如何?

作者在三个基准上测试了 YOLO‑Starfish:他们的新 UFFD 数据集、一个现有的水下数据集(RUOD)以及广泛使用的通用数据集 COCO2017。在这三者上,加入 C2Star 和 ADEM 后,检测得分均优于基线 YOLOv8,常常提高数个百分点,同时略微减少了模型参数和计算量。尤其在 UFFD 的困难案例上增益显著,例如训练样本较少的稀有“尾端”物种和汇总类“未知鱼”,这表明对新颖或模糊外观的泛化能力更强。在 COCO2017 上,YOLO‑Starfish 也能与其他最先进的小型模型抗衡,显示这些改进具有广泛适用性,并不限于水下影像。

这对水下监测意味着什么

本质上,这项研究表明,经过深思熟虑的 AI 设计可以弥合实验室中清洁图像与水面下混乱、色彩失真的世界之间的差距。通过将现实的淡水鱼数据集与受物理启发的特征处理(C2Star)和自适应注意力(ADEM)结合,YOLO‑Starfish 在不要求高性能硬件的情况下实现了更准确的鱼类检测。对于生态学家、渔业管理者和机器人学者而言,这类工具能让长期、大规模的水生生物监测变得更可行,为理解水下生态系统及其随时间变化提供更清晰、自动化的视角。

引用: Gong, R., Xu, J., Zheng, Z. et al. YOLO-Starfish: fish object detection learning complex underwater features. Sci Rep 16, 13964 (2026). https://doi.org/10.1038/s41598-026-44187-z

关键词: 水下鱼类检测, 计算机视觉, 深度学习, 水生生态学, 机器人监测