Clear Sky Science · zh
用于遮挡感知鱼类实例分割的水下图像数据集
为什么水下计数鱼类很难
养鱼场正在转型为高科技运营场所,摄像头与算法悄然监控着数千条鱼。然而,一个看似简单的任务——在拥挤的鱼缸中将一条鱼与另一条鱼区分开来——却极具挑战性。鱼会在彼此上方或下方游动,遮挡相机视线,并且在图像边缘只呈现为局部片段。本文引入了一个新的水下图像集合——鱼类遮挡数据集(Fish Occlusion Dataset,FOD),旨在帮助计算机在鱼类部分被遮挡时仍能识别出个体。这一能力对实现自动喂养、健康检测和养殖存量评估至关重要。
为繁忙鱼缸建立的新图片库
这项工作的核心是一套大规模且精心策划的鲫鱼(水产养殖中常见的一种鱼类)水下照片。研究人员使用安装在水面上方的专用水下相机记录了缸内的66条鱼,并从视频中提取静帧。去除近重复图像后,他们得到了上千张单鱼图像和数百张多鱼场景。每一只可见的鱼都由人工在像素级进行了描边,为计算机提供了精确的形状信息,而不是粗略的边框。总体而言,FOD包含14,376张图像和144,894条精心标注的鱼,成为同类公开资源中最详尽的数据集之一。 
教会计算机看穿重叠
为了真实测试算法在拥挤情况下的表现,团队需要大量鱼类重叠的例子。在这些场景中绘制精细轮廓非常耗时,于是他们采用了一种巧妙的捷径。首先,为单独的鱼生成高质量的掩膜,然后将这些鱼数字化剪切并粘贴到背景图像上,形成新的布局。通过旋转、缩放和平移鱼体,并限制彼此覆盖的程度,他们创建了13,000张具有逼真密集鱼群和可控遮挡的合成图像。边缘处的平滑混合使这些合成图看起来更自然。最终数据集混合了原始与合成场景,兼具多样性与真实性。
评估每条鱼被遮挡的程度
并非所有遮挡都是相同的:完全可见的鱼远比只呈现为零星小片段的鱼更容易识别。为捕捉这一点,作者将每条鱼分为三类。“整体”指完全可见的鱼,“部分”指被其他鱼部分遮挡的鱼,“碎片”则指只以分散片段出现的鱼。这一额外的分层标注让研究者能够准确看到算法在哪些情况下表现欠佳。数据分析显示,数据集中大多数鱼属于“部分”这一组,反映了拥挤鱼缸中的真实情况。他们还证明了传统的汇总评分可能会掩盖在微小碎片上的失败,因此按遮挡级别报告结果能更清晰地展现模型的强弱点。
现有算法的表现如何
为了展示FOD的用途,团队测试了八种流行的图像分割方法,包括一些长期使用的基于检测的模型和一些更直接处理图像区域的“无提议”新设计。所有方法在该数据集上都取得了较高的平均准确率,其中Mask2Former在产出最清晰轮廓方面表现突出,尤其在鱼类重叠时更为明显。然而即便是表现最好的模型,在鱼被分割成碎片时也会出现明显下降。另一项实验展示了FOD中真实与合成数据混合的重要性:仅用真实场景训练会导致对遮挡处理欠佳,而仅用合成数据训练则会错过真实图像的一些细节。两者结合能训练出更稳健的模型。 
这对更智能的养鱼场意味着什么
在实际层面上,这个新数据集为必须在真实养鱼场中运行的计算机视觉系统提供了一个试验场,在那里清晰视野往往是例外而非常态。作者通过有意聚焦于重叠鱼类并共享构建数据集的图像与代码,为更可靠的遮挡感知监测工具奠定了基础。尽管当前集合仅涵盖受控水缸中的单一物种,但相同的方法可以扩展到其他鱼类和更具挑战性的环境。随着这些技术的普及,养鱼者可以获得持续、精确的存量、行为和生长信息——帮助他们更高效地使用饲料、及早发现健康问题并实现更可持续的运营。
引用: Wang, X., Yu, H., Zhang, C. et al. An underwater image dataset for occlusion-aware fish instance segmentation. Sci Data 13, 526 (2026). https://doi.org/10.1038/s41597-026-06898-w
关键词: 水下成像, 养鱼场, 计算机视觉, 实例分割, 遮挡