Clear Sky Science · es

Inversión interpretable del tracto vocal y la respiración mediante operadores neuronales informados por la física

· Volver al índice

Escuchar el interior de la voz

Cuando oímos una voz de canto hermosa, rara vez pensamos en las partes móviles que la crean: la vía aérea retorcida desde la garganta hasta los labios, los pulmones empujando aire y los diminutos músculos que moldean cada nota. Sin embargo, profesores de voz y médicos se preocupan profundamente por esos movimientos ocultos. Este estudio presenta una manera de “ver” el tracto vocal y los pulmones usando únicamente el sonido grabado, construyendo un puente entre lo que escuchamos por fuera y lo que el cuerpo hace por dentro —lo bastante rápido como para ser útil en retroalimentación en tiempo real y en futuras herramientas inteligentes de entrenamiento vocal.

Por qué importa la forma de la garganta

El color y el carácter de una voz —su timbre— surgen de un delicado baile entre la forma del tracto vocal y la manera en que el aire fluye desde los pulmones. Pequeños desplazamientos de la lengua, del velo del paladar o de la mandíbula, y cambios sutiles en la presión de la respiración, pueden hacer que la misma nota suene brillante, oscura, tensa o relajada. Los modelos informáticos existentes pueden imitar voces, pero suelen comportarse como cajas negras: no revelan qué ocurre físicamente dentro del cuerpo y con frecuencia fallan al aplicarse a nuevos hablantes con anatomías distintas. Este trabajo aborda esa brecha centrándose no solo en copiar el sonido, sino en recuperar la geometría subyacente y los patrones respiratorios que lo producen.

Construyendo una imagen rica a partir de muchas señales

Para anclar el modelo en la fisiología real, los investigadores primero crearon un gran conjunto de datos con 1.000 voluntarios adultos, incluidos cantantes entrenados y no profesionales. Durante tareas vocales cuidadosamente diseñadas —vocales sostenidas y deslizamientos de tono— registraron varias señales a la vez: imágenes por ultrasonido de alta velocidad de los tejidos cercanos a las cuerdas vocales, presión abdominal que muestra cuán fuerte los sujetos apoyaban el sonido, movimiento 3D del pecho y el abdomen, y audio de alta fidelidad. Todas estas corrientes se alinearon en una misma rejilla temporal con separación de solo medio milisegundo. Comprobaciones sofisticadas aseguraron que causa y efecto tuvieran sentido físico —por ejemplo, los pulsos de presión respiratoria debían preceder los cambios en la sonoridad con un retardo realista, y las estimaciones de rigidez tisular debían mantenerse dentro de límites fisiológicamente plausibles. El resultado es una película sincronizada y físicamente consistente de cómo el cuerpo y el sonido evolucionan juntos.

Figure 1
Figura 1.

Un nuevo tipo de modelo que respeta la física

En el núcleo del marco hay una herramienta matemática llamada operador neural Kolmogorov–Arnold (KAN), adaptada aquí para aprender cómo funciones enteras se mapean a otras funciones —por ejemplo, cómo un espectro de audio en frecuencia se transforma en una curva que describe el área de la sección transversal del tracto vocal a lo largo de su longitud. En lugar de funciones de activación fijas, cada unidad en esta red usa curvas spline flexibles que pueden deformarse para capturar detalles finos de la relación entre sonido y forma. Una estructura anidada de tres capas refina progresivamente este mapeo para estimar las áreas en 19 ubicaciones desde la glotis hasta los labios, mientras que términos adicionales en el objetivo de entrenamiento disuaden saltos imposibles o cierres que impedirían la fonación. Un módulo recurrente complementario sigue cómo evolucionan en el tiempo las diferencias de presión a través del diafragma, con restricciones incorporadas derivadas de la mecánica básica para que los patrones respiratorios inferidos no cambien más rápido de lo que los músculos reales pueden.

Acercándose al detalle de la respiración y el timbre

Más allá de reconstruir la anatomía y el flujo de aire, el sistema también se centra en el grano fino del propio sonido. Una cabeza de predicción de “superresolución” toma la fisiología recuperada como entrada y genera un espectro extremadamente detallado, actualizándose tan a menudo como cada décimo de milisegundo. Al entretejer herramientas de cálculo fraccionario y penalizar violaciones de la ecuación de onda que rige el sonido en el tracto vocal, esta cabeza restaura fluctuaciones diminutas en tono y sonoridad —conocidas como jitter y shimmer— sin inventar energía no física fuera de la banda de frecuencia grabada. En el intervalo 1,2–2,4 kHz, que es especialmente importante para el timbre y la identidad vocal, el método redujo los errores espectrales a más de la mitad en comparación con varias referencias principales de operadores neuronales. Además, funcionó con suficiente rapidez y eficiencia en un dispositivo de clase Raspberry Pi como para mantener los retrasos de procesamiento por debajo de aproximadamente 20 milisegundos.

Figure 2
Figura 2.

Qué tan bien funciona entre distintas voces

Los autores sometieron su marco a pruebas exigentes a través de diferentes rangos de altura, estilos de canto y tipos de voz no vistos. Al reconstruir la geometría del tracto vocal para voces graves, de rango medio y agudas, su modelo produjo consistentemente los errores de área más pequeños y la mejor concordancia con las formas de referencia, especialmente en tonos altos donde el tracto vocal debe deformarse más drásticamente. De igual modo, ofreció las estimaciones más fiables de la presión respiratoria durante frases legato, staccato y con cambios de intensidad, con retrasos cortos y cursos temporales suaves y realistas muscularmente. Incluso cuando se evaluó con sopranos y bajos cuyas datos fueron completamente excluidas durante el entrenamiento, el sistema mantuvo bajos errores de geometría y presión, lo que sugiere que había aprendido principios generales de control vocal en lugar de memorizar hablantes individuales.

Qué significa esto para cantantes y profesores

En términos cotidianos, este trabajo demuestra que es posible inferir cómo una persona está moldeando su garganta y gestionando su aliento directamente a partir del sonido que produce, de una manera que es a la vez precisa y fundamentada en la física básica. El modelo transforma la cualidad esquiva del timbre en curvas interpretable: cuán ancha es cada parte del tracto vocal, cómo sube y baja la presión en el abdomen y cómo se despliegan pequeñas ondulaciones de tono y sonoridad a lo largo del tiempo. Aunque el estudio aún no prueba resultados de aprendizaje en lecciones reales, sienta la base técnica para herramientas futuras que podrían ofrecer a los cantantes retroalimentación en tiempo real, consciente de la anatomía y adaptada a su propio cuerpo, y para clínicos que necesiten información no invasiva sobre cómo se producen las voces de los pacientes.

Cita: Deng, M., Liu, C. & Yang, Z. Interpretable vocal tract and respiratory inversion via physics-informed neural operators. Sci Rep 16, 11401 (2026). https://doi.org/10.1038/s41598-026-40470-1

Palabras clave: modelado del tracto vocal, dinámica respiratoria, análisis del timbre de la voz, redes neuronales informadas por la física, entrenamiento vocal personalizado