Clear Sky Science · es

Un conjunto de imágenes submarinas para la segmentación de instancias de peces consciente de oclusiones

· Volver al índice

Por qué contar peces bajo el agua es difícil

Las granjas de peces se están transformando en operaciones de alta tecnología, donde cámaras y algoritmos vigilan silenciosamente a miles de animales. Sin embargo, una tarea sorprendentemente básica—distinguir un pez de otro en un tanque concurrido—resulta ser muy complicada. Los peces nadan por encima y por debajo unos de otros, bloquean la vista de la cámara y aparecen solo en fragmentos en el borde de la imagen. Este artículo presenta una nueva colección de imágenes submarinas, el Conjunto de Oclusión de Peces (FOD), diseñada para ayudar a los ordenadores a reconocer peces individuales incluso cuando están parcialmente ocultos. Esa capacidad es clave para automatizar la alimentación, las revisiones de salud y la evaluación de existencias en la acuicultura moderna.

Una nueva biblioteca de imágenes para tanques llenos de peces

El núcleo de este trabajo es un amplio y cuidadosamente curado conjunto de fotografías submarinas de carpa cruciana, un pez de cría común. Los investigadores grabaron 66 peces en un tanque con una cámara submarina especializada montada por encima del agua y luego extrajeron fotogramas fijos de los vídeos. Tras eliminar imágenes casi duplicadas, obtuvieron más de mil imágenes de un solo pez y cientos de escenas con varios peces. Cada pez visible fue delineado a mano a nivel de píxel, proporcionando a los ordenadores formas precisas en lugar de recuadros aproximados. En total, FOD contiene 14.376 imágenes y 144.894 peces etiquetados meticulosamente, lo que lo convierte en uno de los recursos públicos más detallados de su tipo.

Figure 1
Figure 1.

Enseñar a los ordenadores a ver a través de la superposición

Para evaluar realmente cómo manejan los algoritmos la multitud, el equipo necesitaba muchos ejemplos donde los peces se solapan. Dibujar contornos detallados en tales escenas consume muchísimo tiempo, así que adoptaron un atajo inteligente. Primero generaron máscaras de alta calidad para peces individuales. Luego recortaron digitalmente esos peces y los pegaron sobre imágenes de fondo en nuevas composiciones. Al rotar, escalar y desplazar los peces, y al limitar cuánto pueden cubrirse entre sí, crearon 13.000 imágenes sintéticas con cardúmenes densos y realistas y solapamientos controlados. Una mezcla suave en los bordes mantiene estas composiciones con un aspecto natural. El conjunto final combina escenas originales y sintéticas, ofreciendo tanto variedad como realismo.

Clasificar cuán oculto está cada pez

No toda oclusión es igual: un pez completamente visible es mucho más fácil de reconocer que uno que aparece solo como unos pocos parches dispersos. Para captar esto, los autores clasificaron cada pez en tres grupos sencillos. Los peces “enteros” son completamente visibles, los peces “parciales” están parcialmente bloqueados por otros, y los peces “fragmento” aparecen solo en piezas separadas. Esta capa adicional de etiquetado permite a los investigadores ver exactamente dónde flaquean sus algoritmos. Al analizar los datos, hallaron que la mayoría de los peces del conjunto pertenecen al grupo “parcial”, lo que refleja lo que realmente ocurre en tanques concurridos. También mostraron que las puntuaciones resumen tradicionales pueden ocultar fallos en fragmentos pequeños, por lo que informar resultados por nivel de oclusión ofrece una imagen más clara de las fortalezas y debilidades de los modelos.

Cómo rendirían los algoritmos actuales

Para demostrar lo que FOD puede aportar, el equipo evaluó ocho métodos populares de segmentación de imágenes, incluidos modelos clásicos basados en detección y diseños más recientes “sin propuestas” que trabajan de forma más directa con regiones de imagen. Todos alcanzaron una alta precisión media en el conjunto, y un método, Mask2Former, destacó por producir los contornos más nítidos, especialmente cuando los peces se solapaban. Aun así, incluso los mejores modelos flaquearon cuando los peces estaban fragmentados: el rendimiento cayó de forma notable respecto a los peces completamente visibles. Un experimento adicional mostró por qué importa la mezcla de datos reales y sintéticos de FOD: entrenar solo con escenas reales condujo a un pobre manejo de la oclusión, mientras que entrenar solo con sintéticos dejó escapar algunos detalles de las imágenes reales. Combinar ambos produjo los modelos más robustos.

Figure 2
Figure 2.

Qué significa esto para granjas de peces más inteligentes

En términos prácticos, este nuevo conjunto ofrece un campo de pruebas para sistemas de visión por ordenador que deben funcionar en granjas de peces reales, donde las vistas claras son la excepción y no la norma. Al centrarse deliberadamente en peces solapados y al compartir tanto las imágenes como el código usado para construirlas, los autores proporcionan una base para herramientas de monitorización más fiables y conscientes de las oclusiones. Aunque la colección actual cubre solo una especie en un tanque controlado, el mismo enfoque puede extenderse a otros peces y a entornos más exigentes. A medida que estas técnicas se difundan, los acuicultores podrían obtener información continua y precisa sobre el tamaño del stock, el comportamiento y el crecimiento—ayudándoles a usar el alimento con mayor eficiencia, detectar problemas de salud tempranamente y gestionar operaciones más sostenibles.

Cita: Wang, X., Yu, H., Zhang, C. et al. An underwater image dataset for occlusion-aware fish instance segmentation. Sci Data 13, 526 (2026). https://doi.org/10.1038/s41597-026-06898-w

Palabras clave: imágenes submarinas, acuicultura, visión por ordenador, segmentación de instancias, oclusión