Clear Sky Science · fr

Un jeu de données d'images sous-marines pour la segmentation d'instances de poissons tenant compte des occlusions

· Retour à l’index

Pourquoi compter les poissons sous l'eau est difficile

Les fermes piscicoles deviennent des opérations high-tech, où caméras et algorithmes surveillent discrètement des milliers d'animaux. Pourtant une tâche apparemment simple — distinguer un poisson d'un autre dans un bassin bondé — s'avère très complexe. Les poissons nagent les uns sur les autres, masquent la vue de la caméra et n'apparaissent parfois que par fragments au bord de l'image. Cet article présente une nouvelle collection d'images sous-marines, le Fish Occlusion Dataset (FOD), conçue pour aider les ordinateurs à reconnaître des poissons individuels même lorsqu'ils sont partiellement cachés. Cette capacité est essentielle pour automatiser l'alimentation, les contrôles de santé et l'estimation des effectifs en aquaculture moderne.

Une nouvelle bibliothèque d'images pour des bassins surpeuplés

Le cœur de ce travail est un grand ensemble d'images sous-marines soigneusement sélectionnées de carassins, une espèce couramment élevée. Les chercheurs ont filmé 66 poissons dans un bassin avec une caméra sous-marine spécialisée placée au-dessus de l'eau, puis ont extrait des images fixes des vidéos. Après avoir éliminé les images presque identiques, ils ont obtenu plus d'un millier d'images montrant un seul poisson et plusieurs centaines de scènes avec plusieurs poissons. Chaque poisson visible a été tracé à la main au niveau des pixels, donnant aux ordinateurs des formes précises plutôt que des boîtes approximatives. Au total, le FOD contient 14 376 images et 144 894 poissons étiquetés avec soin, en faisant l'une des ressources publiques les plus détaillées de ce type.

Figure 1
Figure 1.

Apprendre aux ordinateurs à voir à travers les chevauchements

Pour tester réellement la capacité des algorithmes à gérer la densité, l'équipe avait besoin de nombreux exemples où les poissons se chevauchent. Dessiner des contours détaillés dans de telles scènes prend beaucoup de temps, ils ont donc adopté une astuce ingénieuse. D'abord, ils ont généré des masques de haute qualité pour des poissons individuels. Ils ont ensuite découpé numériquement ces poissons et les ont collés sur des images de fond selon de nouvelles dispositions. En faisant tourner, mettre à l'échelle et déplacer les poissons, et en limitant la portion qu'ils peuvent recouvrir les uns les autres, ils ont créé 13 000 images synthétiques montrant des bancs denses et réalistes avec chevauchement contrôlé. Un fondu doux le long des bords maintient l'aspect naturel de ces compositions. Le jeu de données final mélange scènes originales et synthétiques, offrant à la fois variété et réalisme.

Évaluer le degré de dissimulation de chaque poisson

Toutes les occlusions ne se valent pas : un poisson entièrement visible est beaucoup plus facile à reconnaître qu'un poisson n'apparaissant que sous forme de quelques taches dispersées. Pour rendre cela explicite, les auteurs ont classé chaque poisson en trois groupes simples. Les poissons « entiers » sont complètement visibles, les poissons « partiels » sont partiellement masqués par d'autres, et les poissons « fragments » n'apparaissent que sous forme de morceaux séparés. Cette couche d'annotation supplémentaire permet aux chercheurs d'identifier précisément où leurs algorithmes peinent. En analysant les chiffres, ils ont constaté que la plupart des poissons du jeu de données appartiennent au groupe « partiel », ce qui reflète la réalité des bassins surpeuplés. Ils ont aussi montré que les scores d'ensemble classiques peuvent masquer des échecs sur de petits fragments : rapporter les résultats par niveau d'occlusion donne une image plus claire des forces et des faiblesses des modèles.

Comment les algorithmes actuels se comportent

Pour démontrer ce que le FOD permet d'évaluer, l'équipe a testé huit méthodes populaires de segmentation d'images, incluant des modèles traditionnels basés sur la détection ainsi que des architectures plus récentes « sans proposition » qui traitent plus directement les régions d'image. Tous ont atteint une bonne précision moyenne sur le jeu de données, et une méthode, Mask2Former, s'est distinguée par des contours plus nets, notamment lorsque les poissons se chevauchaient. Pourtant, même les meilleurs modèles ont flanché lorsque les poissons étaient fragmentés — les performances y chutaient sensiblement par rapport aux poissons entièrement visibles. Une expérience supplémentaire a montré l'intérêt du mélange de données réelles et synthétiques : l'entraînement uniquement sur des scènes réelles conduisait à une mauvaise gestion des occlusions, tandis que l'entraînement uniquement sur des images synthétiques manquait certains détails des images réelles. La combinaison des deux a produit les modèles les plus robustes.

Figure 2
Figure 2.

Ce que cela signifie pour des fermes piscicoles plus intelligentes

Pratiquement, ce nouveau jeu de données offre un terrain d'essai pour des systèmes de vision par ordinateur qui doivent fonctionner dans de vraies fermes piscicoles, où les vues dégagées sont l'exception plutôt que la règle. En se concentrant délibérément sur les poissons qui se chevauchent et en partageant à la fois les images et le code servant à les construire, les auteurs fournissent une base pour des outils de surveillance plus fiables et conscients des occlusions. Si la collection actuelle couvre une seule espèce dans un bassin contrôlé, la même approche peut être étendue à d'autres poissons et à des environnements plus contraignants. À mesure que ces techniques se diffusent, les pisciculteurs pourraient obtenir des informations continues et précises sur les effectifs, le comportement et la croissance — les aidant à utiliser l'alimentation plus efficacement, détecter précocement les problèmes de santé et gérer leurs exploitations de façon plus durable.

Citation: Wang, X., Yu, H., Zhang, C. et al. An underwater image dataset for occlusion-aware fish instance segmentation. Sci Data 13, 526 (2026). https://doi.org/10.1038/s41597-026-06898-w

Mots-clés: imagerie sous-marine, élevage piscicole, vision par ordinateur, segmentation d'instances, occlusion