Clear Sky Science · es

Estimación de DOA vectorial acústica submarina en entornos de ruido híbrido basada en un mecanismo de mezcla de expertos con activación dispersa

2026-01-25 · Volver al índice

Escuchando señales ocultas bajo el agua

Buques, submarinos, robots submarinos e incluso biólogos marinos dependen de la escucha de sonidos débiles en el océano para determinar su origen. Pero el mar es un lugar ruidoso: motores, olas, animales e instrumentos añaden interferencias. Este estudio presenta una nueva forma de localizar la dirección de sonidos submarinos incluso cuando el ruido es desordenado e impredecible, usando una forma moderna de inteligencia artificial que aprende a lidiar con distintos tipos de ruido en lugar de asumir que todo es simple y uniforme.

Por qué es tan difícil encontrar la dirección en el océano

Para localizar una fuente sonora, los ingenieros usan un arreglo de micrófonos submarinos, llamados hidrofonos, alineados en fila. Comparando las pequeñas diferencias en el tiempo en que el sonido llega a cada sensor, pueden estimar la dirección de procedencia, tarea conocida como estimación de dirección de llegada (DOA). Los métodos clásicos suponen que el ruido de fondo es como un siseo suave y uniforme—matemáticamente, «ruido gaussiano blanco». Los océanos reales rara vez se comportan tan bien. El ruido puede ser impulsivo, como estallidos súbitos; coloreado, con más energía en ciertas frecuencias; o desigual entre sensores. Esta mezcla de comportamientos, llamada ruido híbrido, rompe las suposiciones en las que dependen los algoritmos antiguos, provocando que su precisión colapse precisamente cuando las condiciones son más desafiantes.

Una hilera de sensores más inteligente

Los investigadores basan su trabajo en un diseño de sensores simple pero potente: una línea recta de hidrofonos vectoriales, que miden tanto la presión como el movimiento de partículas en el agua. Cuando fuentes sonoras lejanas emiten ondas, estas alcanzan cada sensor en tiempos y fases ligeramente distintos, según el ángulo de llegada. A partir de estas mediciones, el sistema construye una matriz de covarianza—un resumen compacto de cómo las señales en diferentes sensores se relacionan en el tiempo. Esta matriz contiene las pistas geométricas necesarias para inferir la dirección, pero está enredada con todo el ruido complejo presente en el entorno.

Convertir datos ruidosos en patrones aprendibles

Las redes neuronales suelen trabajar con números reales, pero la matriz de covarianza tiene valores complejos. El equipo por tanto la divide en dos matrices reales, que representan las partes real e imaginaria, y las introduce como una «imagen» de dos canales en una red neuronal convolucional (CNN). Esta CNN explora la matriz para descubrir patrones espaciales que distinguen la estructura de la señal verdadera del ruido. En lugar de confiar en fórmulas diseñadas a mano, la CNN aprende estas características directamente de los datos, construyendo gradualmente desde relaciones locales simples hasta patrones de más alto nivel informativos para localizar fuentes sonoras.

Muchos especialistas y un coordinador inteligente

La innovación clave ocurre después de la CNN: una red de mezcla de expertos con activación dispersa (SMoE). En lugar de un único modelo monolítico intentando manejar todas las situaciones, el sistema incluye varios expertos más pequeños, cada uno entrenado para sobresalir bajo un tipo específico de ruido, como blanco, rosa, rojo, azul, violeta o impulsivo. Una red de selección separada observa las características extraídas por la CNN y, para cada ejemplo entrante, decide qué pocos expertos son más relevantes. Solo esos expertos principales se activan, y sus salidas se combinan para producir una estimación final de la probabilidad de que haya una fuente sonora en cada ángulo de 0° a 180°. Este diseño hace al modelo tanto adaptable—porque cambia qué expertos escucha según varían las condiciones de ruido—como eficiente, pues evita ejecutar todos los expertos todo el tiempo.

Pruebas en condiciones duras y realistas

Para entrenar este sistema, los autores generaron primero datos en los que cada experto ve solo un tipo de ruido, permitiendo su especialización. Luego entrenaron la red de selección con mezclas de los seis ruidos, imitando entornos híbridos reales. También evaluaron el modelo en un gran conjunto de prueba realista que incluye tanto ruido simulado como ruido submarino grabado real, a lo largo de un amplio rango de niveles de señal y duraciones de datos. En comparación con técnicas clásicas conocidas y otros enfoques de aprendizaje profundo, el modelo SMoE mostró consistentemente errores menores y mayores tasas de acierto, particularmente cuando el ruido era fuerte o cuando solo había disponible una cantidad limitada de datos. A una relación señal-ruido de 0 dB—donde la potencia de la señal y del ruido son iguales—el modelo alcanzó un error angular medio inferior a un grado mientras que métodos rivales podían desviarse varios grados.

Qué supone esto para la detección submarina futura

En términos sencillos, este trabajo muestra que permitir que múltiples «oyentes» de IA especializados compartan la tarea, y elegir entre ellos sobre la marcha, puede mejorar drásticamente nuestra capacidad para determinar de dónde provienen los sonidos submarinos en condiciones caóticas y ruidosas. El enfoque puede adaptarse a otros diseños de sensores más allá de arreglos lineales simples, y la misma idea—mezcla de expertos con una puerta inteligente—podría ser útil en radar, robótica y otros campos donde hay que localizar señales en presencia de interferencias complejas. Para aplicaciones que dependen de una escucha submarina fiable, desde la navegación hasta el monitoreo ambiental, este método ofrece una forma más flexible y robusta de escuchar a través del ruido.

Cita: Xu, W., Yi, S., Gu, H. et al. Underwater acoustic vector DOA estimation in hybrid noise environments based on sparsely-gated mixture-of-experts mechanism. Sci Rep 16, 6192 (2026). https://doi.org/10.1038/s41598-026-37217-3

Palabras clave: acústica submarina, dirección de llegada, ruido híbrido, aprendizaje profundo, mezcla de expertos