Clear Sky Science · es

YOLO-Starfish: detección de peces aprendiendo características complejas bajo el agua

· Volver al índice

Por qué detectar peces bajo el agua es tan difícil

Desde el cambio climático hasta la sobrepesca, comprender lo que ocurre bajo la superficie del agua es crucial. Científicos y gestores pesqueros confían cada vez más en cámaras submarinas para contar e identificar peces, pero las imágenes que recogen suelen ser turbias, teñidas de azul‑verdoso y llenas de animales solapados. Revisar manualmente miles de horas de vídeo es lento y proclive a errores. Este artículo presenta YOLO‑Starfish, un sistema compacto de inteligencia artificial diseñado para ayudar a robots y cámaras submarinas a encontrar peces automáticamente en estas condiciones difíciles, junto con un nuevo conjunto de imágenes detallado de peces de agua dulce.

Figure 1
Figure 1.

El mundo submarino a través de los ojos de una cámara

La detección de objetos bajo el agua no es solo un análisis de imagen convencional con un poco de agua añadido. La luz se comporta de forma muy distinta en ríos y lagos: las longitudes de onda rojas desaparecen rápidamente, las partículas dispersan la luz en múltiples direcciones y la visibilidad puede cambiar de clara a turbia en cuestión de metros. Los propios peces complican aún más la tarea. Diferentes especies pueden parecer muy similares, los individuos de una misma especie pueden variar desde crías diminutas hasta adultos grandes, y con frecuencia se solapan, se ocultan entre plantas o nadan entrando y saliendo de sombras. Muchos enfoques de IA existentes se entrenaron con imágenes relativamente limpias y bien iluminadas y rara vez ven escenas tan desordenadas, por lo que tienen dificultades al desplegarse en el entorno real.

Construyendo una colección realista de fotos de peces

Para abordar esta brecha, los autores primero ensamblaron el Underwater Freshwater Fish Dataset (UFFD), una gran colección de imágenes submarinas del mundo real. Reunieron vídeos públicos de hábitats de agua dulce diversos, extrajeron fotogramas automáticamente a intervalos regulares y luego seleccionaron y etiquetaron cuidadosamente las imágenes de mayor calidad. En lugar de centrarse en unas pocas especies famosas de carpas, decidieron etiquetar todos los peces reconocibles, terminando con 19 categorías, incluida una clase de “pez desconocido” para los individuos que no pudieron identificarse con confianza. El conjunto final contiene 18.594 imágenes (16.904 únicas), que cubren una amplia gama de claridad del agua, condiciones de iluminación, distancias de cámara y tamaños de peces. Es importante que las frecuencias de las especies siguen un patrón de “cola larga”: pocas especies son comunes, mientras muchas son raras, tal como ocurre en los ecosistemas reales.

Figure 2
Figure 2.

Una forma más inteligente de leer imágenes degradadas

Sobre este conjunto de datos, el equipo construyó YOLO‑Starfish, una versión mejorada del popular detector en tiempo real YOLOv8. Dos ideas clave impulsan la mejora. Primero, el módulo C2Star cambia la forma en que la red combina las características internas. En lugar de limitarse a sumar patrones, los multiplica elemento por elemento en una llamada "operación estrella". Esto refleja cómo la luz realmente se atenúa al viajar por el agua, donde las señales se escalan en lugar de quedar simplemente enterradas en el ruido. Matemáticamente, esta multiplicación permite a la red representar combinaciones más complejas de formas y colores sin volverse voluminoso, lo cual es vital para robots submarinos alimentados por batería con potencia de cálculo limitada.

Dejar que la red decida qué es realmente importante

La segunda innovación, el Módulo de Mejora Dirigido por Atención (ADEM), se centra en qué información es confiable en cada imagen. Como el agua a menudo elimina algunas bandas de color —especialmente la roja— la práctica habitual de tratar cada canal de color por igual puede engañar a un detector. ADEM comprime toda la información de los canales de color en un único valor guía que estima cuán fiables son esos canales en conjunto. Luego combina esta señal global con atención espacial, que destaca regiones específicas de la imagen, usando una regla simple de "tomar el máximo" en lugar de una suma directa. En escenas donde las pistas de color son fuertes, el modelo se apoya más en la información de canales; cuando los colores están lavados, depende más de patrones espaciales como formas y bordes. El mapa de atención resultante se usa finalmente para potenciar o suprimir características a lo largo de la imagen de manera flexible y guiada por los datos.

¿Qué tan bien funciona YOLO‑Starfish?

Los autores probaron YOLO‑Starfish en tres puntos de referencia: su nuevo conjunto UFFD, un conjunto submarino existente (RUOD) y la colección de propósito general COCO2017, ampliamente usada. En los tres, añadir C2Star y ADEM mejoró las puntuaciones de detección sobre el YOLOv8 de referencia, a menudo por varios puntos porcentuales, mientras que reducía ligeramente el número de parámetros del modelo y el cómputo. Las mejoras fueron especialmente notables en casos difíciles de UFFD, como las especies raras de la "cola" con pocos ejemplos de entrenamiento y la categoría comodín "pez desconocido", lo que sugiere mejor generalización a apariencias nuevas o ambiguas. En COCO2017, YOLO‑Starfish también compitió bien frente a otros modelos pequeños de vanguardia, mostrando que las mejoras son de utilidad amplia y no se limitan a imágenes submarinas.

Qué significa esto para observar el agua

En esencia, el estudio demuestra que una IA diseñada con criterio puede cerrar la brecha entre imágenes limpias de laboratorio y el mundo desordenado y distorsionado por el color bajo la superficie. Al emparejar un conjunto de datos realista de peces de agua dulce con un procesamiento de características inspirado en la física (C2Star) y una atención adaptativa (ADEM), YOLO‑Starfish ofrece una detección de peces más precisa sin exigir hardware pesado. Para ecólogos, gestores pesqueros y robotistas, este tipo de herramienta podría hacer que la monitorización a gran escala y a largo plazo de la vida acuática sea mucho más práctica, ofreciendo una visión automatizada y más clara de los ecosistemas submarinos y de cómo cambian con el tiempo.

Cita: Gong, R., Xu, J., Zheng, Z. et al. YOLO-Starfish: fish object detection learning complex underwater features. Sci Rep 16, 13964 (2026). https://doi.org/10.1038/s41598-026-44187-z

Palabras clave: detección de peces submarina, visión por computador, aprendizaje profundo, ecología acuática, monitorización robótica