Clear Sky Science · zh

使用结合 CNN 与变换器编码器的 YOLOv12 在水下图像中检测珊瑚形态

2026-04-01 · 返回目录

珊瑚形态为何与我们息息相关

珊瑚礁不仅是美丽的水下风景；它们的形态决定了对海岸的保护效果、为海洋生物提供栖息地的能力，以及对渔业和旅游的支持强度。观察这些珊瑚形态随时间的变化是理解在变暖与污染加剧的海洋中礁体健康的关键。本研究提出了一种自动识别水下照片中不同珊瑚生长形式的新方法，帮助科学家更快、更可靠地追踪礁体状况。

在水下清晰观测的挑战

长期以来，珊瑚礁监测依赖潜水员耐心地手工标注照片，这个过程既慢又昂贵，并且受主观判断影响。水下图像对计算机而言难以解读，因为光被吸收和散射、颜色发生偏移、悬浮颗粒掩盖细节。像分支状、球状和板状等不同珊瑚生长形态在浑浊水域中可能看起来极为相似。先前的人工智能工具常在这些条件下表现受限，容易遗漏小型珊瑚群落、将类似形态混淆或运行速度太慢，无法在调查机器人上实现实时使用。

Figure 1. 人工智能如何在浑浊水下场景中识别不同珊瑚形状，从而加快礁体监测速度。

为珊瑚礁配备更智能的“数字之眼”

研究人员基于一类以速度著称的目标检测器 YOLO，采用最新版本 YOLOv12 作为基础。他们加入了两种互补组件：一种擅长捕捉局部纹理和边缘的网络，以及另一种擅长把握更广阔场景的结构。第一种组件——卷积神经网络（CNN）——捕获微小的珊瑚分支和表面纹理等细节；第二种组件——变换器编码器（transformer encoder）——跨越整幅图像以理解群落的排列及其与岩石、沙地或海藻的区别。一个特殊的融合模块随后将这些局部与全局信号结合，使系统能够识别珊瑚形态之间的细微差别。

系统如何学习珊瑚形态

为训练与测试模型，团队使用了一个公开可得的水下图像集合，该集合包含若干关键珊瑚形态：分支状、巨型（massive）与板状（tabular）。图像经过尺寸调整与增强，并施加多种颜色与几何变化，使模型能见到同一场景的多种版本，模拟真实世界中深度、光照与水清度的变化。在检测器内部，特征在多个尺度上被处理，以便既能发现小型珊瑚顶端也能识别大型群落。融合后的信息随后进入检测阶段，输出包围各珊瑚群落的边界框并将每个群落分配到相应的生长形态类别。

结果说明了什么

该融合模型称为 YOLOv12-CT，并与一系列知名的检测系统进行对比测试，包括早期的 YOLO 版本、经典深度学习检测器以及较新的基于变换器的设计。在若干标准性能度量上，例如检测到的群落数、标签正确率以及轮廓定位的精确度，新方法均表现领先。它在典型评估阈值下实现了较高的平均精度均值（mAP），在保持适合近实时使用的处理时间的同时，优于所有对比模型。该系统在识别扁平板状珊瑚方面表现尤为强劲，并显著改善了对通常在浑浊水域最难区分的复杂分支状珊瑚的检测。

Figure 2. 一种 AI 模型如何结合珊瑚的精细细节与整体场景模式来按生长形态对珊瑚群落进行分类。

这对礁体保护意味着什么

通过更准确且更高效地识别珊瑚的生长方式，该方法能更容易地随时间追踪礁体结构、生物多样性与韧性。该方法仍有局限，例如训练数据的不平衡以及变换器模块带来的额外计算开销，且在极端或不熟悉的水下环境中性能可能存在波动。尽管如此，研究表明，将精细纹理线索与更广域的场景视角结合，可为海洋科学家提供一种强有力的新工具，用于大规模自动化珊瑚监测，从而支持更好的保护与修复决策。

引用: Nandal, P., Siwach, M. & Upadhyay, G.M. Coral morphology detection in underwater imagery using YOLOv12 with CNN and transformer encoder fusion. Sci Rep 16, 15426 (2026). https://doi.org/10.1038/s41598-026-42591-z

关键词: 珊瑚形态, 水下成像, 深度学习, 目标检测, 礁体监测