Clear Sky Science · ja

CNNとトランスフォーマーエンコーダ融合を用いたYOLOv12による水中画像におけるサンゴ形態検出

· 一覧に戻る

なぜサンゴの形が私たちに重要なのか

サンゴ礁は単なる美しい水中景観ではなく、その形状は沿岸保護、海洋生物の生息場所の提供、漁業や観光の支え方に影響します。これらのサンゴ形状が時間とともにどう変わるかを追うことは、温暖化や汚染が進む海で礁の健康を理解するうえで重要です。本研究は、水中写真からさまざまなサンゴの成長形態を自動的に検出する新しい方法を提示し、科学者が礁の状態をより迅速かつ確実に追跡できるようにします。

水中で明瞭に捉えることの課題

サンゴ礁の監視は長年にわたりダイバーによる写真の手作業ラベリングに頼ってきましたが、これは時間がかかりコストが高く、主観が入りやすい方法です。水中画像は光の吸収や散乱、色の変化、浮遊粒子による微細なディテールの遮蔽などにより、コンピュータにとって解釈が難しくなります。枝状、ドーム状、平板状といった異なるサンゴの成長形態は、濁った水では紛らわしく見えることがあります。従来の人工知能ツールはこうした条件で小さなコロニーを見落としたり、似た形を混同したり、調査ロボットでのリアルタイム使用には遅すぎたりすることがありました。

Figure 1. 濁った水中のシーンでAIが異なるサンゴ形状を識別し、サンゴ礁の監視を迅速化する仕組み。
Figure 1. 濁った水中のシーンでAIが異なるサンゴ形状を識別し、サンゴ礁の監視を迅速化する仕組み。

サンゴ礁のためのより賢いデジタルの目

研究者らは高速な物体検出器として知られるYOLOファミリーの最新版、YOLOv12を基盤として構築しています。そこに補完的な2つの構成要素を追加しました:局所的なテクスチャやエッジの検出に優れるネットワークと、より広いシーン把握に優れるネットワークです。最初の要素である畳み込みニューラルネットワーク(CNN)は、小さなサンゴの枝や表面パターンなどの細かな視覚情報を捉えます。二つ目のトランスフォーマーエンコーダは画像全体を横断してコロニーの配置や岩、砂、藻類からの際立ち方を理解します。特別な融合モジュールがこれらの局所的・大域的シグナルを統合し、サンゴ形状の微妙な違いを認識できるようにします。

システムはどのようにサンゴ形状を学ぶか

モデルの訓練と評価には公開されている水中画像集を用い、枝状、マッシブ(塊状)、タビュラー(平板)といった主要なサンゴ形態が含まれます。画像はリサイズや補正が施され、色や幾何学的変化が多様に加えられることで、深度・照明・水の透明度の現実的な変化を模倣し、モデルが同じシーンの多様なバージョンを学べるようにします。検出器内部ではマルチスケールで特徴が処理され、小さなサンゴの先端から大きなコロニーまで見つけられるようになっています。融合された情報は検出段階に流れ、サンゴコロニーの周りにバウンディングボックスを出力し、それぞれに成長形態のカテゴリを割り当てます。

結果が示すこと

融合モデルであるYOLOv12-CTは、旧バージョンのYOLOや従来のディープラーニング検出器、最近のトランスフォーマーベース設計など、広く知られた検出システムと比較して検証されました。コロニーの検出率、ラベルの正確さ、輪郭の精度といった標準的な性能指標において、新しい手法は優れた成績を示しました。典型的な評価閾値での平均精度(mAP)が高く、比較対象モデルを上回りながら近リアルタイム使用に適した処理時間も維持しています。特に平板状のサンゴ認識に強く、通常は濁った水で識別が難しい複雑な枝状サンゴの検出も大幅に改善しています。

Figure 2. AIモデルがサンゴの細部と全体的なシーンパターンを組み合わせて、コロニーを成長形態ごとに分類する方法。
Figure 2. AIモデルがサンゴの細部と全体的なシーンパターンを組み合わせて、コロニーを成長形態ごとに分類する方法。

礁保護への意味

サンゴの成長様式をより正確かつ効率的に識別できることで、このアプローチは礁の構造、生物多様性、回復力を時間的に追跡することを容易にします。訓練データの不均衡やトランスフォーマーモジュールの計算コスト増といった制約や、非常に過酷あるいは馴染みのない水中環境では性能が変動する可能性は残ります。それでも、本研究は細部の質感情報と広域的なシーン理解を組み合わせることで、大規模で自動化されたサンゴ監視に海洋科学者が利用できる強力な新ツールを提供し、保全や修復に関するより良い意思決定を支援することを示しています。

引用: Nandal, P., Siwach, M. & Upadhyay, G.M. Coral morphology detection in underwater imagery using YOLOv12 with CNN and transformer encoder fusion. Sci Rep 16, 15426 (2026). https://doi.org/10.1038/s41598-026-42591-z

キーワード: サンゴ形態, 水中撮影, 深層学習, 物体検出, 礁のモニタリング