Clear Sky Science · es
Validación de la segmentación automatizada del sonido de deglución de 5 mL de líquido fino para estimar el tiempo de aclaramiento faríngeo derivado del audio
Por qué importan los sonidos de la deglución
La deglución es algo que la mayoría damos por sentado, pero para millones de personas —especialmente personas mayores y quienes padecen enfermedades neurológicas— puede ser difícil y peligroso. Cuando la deglución falla, alimentos o líquidos pueden entrar en los pulmones, provocando malnutrición, atragantamiento o infecciones graves como la neumonía. Las mejores pruebas actuales para detectar problemas de deglución se basan en películas de rayos X realizadas en el hospital. Este estudio explora un enfoque mucho más simple: escuchar los sonidos de la deglución con un pequeño estetoscopio electrónico en el cuello y usar un algoritmo informático para determinar qué tan bien la garganta despeja cada sorbo de líquido.
De las radiografías hospitalarias a herramientas inteligentes junto a la cama
El estándar de referencia actual para examinar la deglución es el estudio de deglución por videofluoroscopia, una película de rayos X que muestra un líquido con contraste desplazándose desde la boca hacia la garganta. Revela la rapidez y seguridad con que el líquido pasa por estructuras clave y si queda algún residuo. Sin embargo, esta prueba requiere equipo especializado, personal entrenado y expone a los pacientes a radiación, lo que dificulta repetirla con frecuencia o realizarla junto a la cama o en el domicilio. En contraste, la auscultación cervical —escuchar los sonidos procedentes de la garganta— puede hacerse en cualquier lugar, pero tradicionalmente ha sido subjetiva y dependiente del oído del clínico. Con los avances en sensores digitales y procesamiento de señales, los autores pretenden convertir estos sonidos en una medida numérica fiable que refleje lo que muestran las radiografías.

Capturar el sonido de una deglución
El equipo estudió a 45 pacientes en un hospital japonés que ya se sometían a pruebas por sospecha de problemas de deglución y podían tragar con seguridad un sorbo de 5 mililitros de líquido fino. Mientras cada paciente tragaba, llevaba un estetoscopio electrónico colocado en la parte frontal del cuello. La misma cámara de vídeo registró tanto la pantalla de la radiografía como la señal de audio, permitiendo sincronizar con precisión ambos. Un algoritmo informático basado en reglas vigiló la sonoridad de la señal en pequeños fragmentos temporales, marcando cuándo empezaba y cuándo terminaba un estallido de actividad. El intervalo entre estos dos puntos —denominado tiempo de aclaramiento faríngeo derivado del audio— se consideró el periodo durante el cual la garganta estaba activamente desplazando el líquido.
Relacionar los eventos sonoros con los movimientos reales de la garganta
Para evaluar si la cronología basada en sonido reflejaba realmente el acto físico de la deglución, un patólogo del habla y lenguaje experimentado revisó las películas de rayos X cuadro por cuadro. Marcó tres momentos clave: cuando el líquido tocó por primera vez la epiglotis en la parte posterior de la lengua, cuando se abrió el esfínter esofágico superior (la puerta al esófago) y cuando se volvió a cerrar. Estos hitos definen conjuntamente cuánto tiempo permanece el líquido al pasar por la garganta. Los investigadores compararon entonces estos tiempos derivados de la radiografía con los puntos de inicio y fin basados en sonido del algoritmo en 84 degluciones. El algoritmo detectó con éxito 80 de ellas y, en la mayoría de los casos, el intervalo sonoro coincidió de forma notable con el paso por la garganta definido por la radiografía.
¿Qué tan bien se alinearon los tiempos?
El inicio detectado por sonido se produjo después de que el líquido alcanzara la epiglotis en el 96 % de las degluciones y, por lo general, en alrededor de medio segundo, lo que indica que el algoritmo no se activa por movimientos tempranos de la boca sino por eventos en la garganta. El final detectado por sonido típicamente ocurrió después de que el esfínter esofágico superior se cerrara, lo que significa que el intervalo sonoro capturado abarcó la fase activa completa del transporte faríngeo. En promedio, el tiempo de aclaramiento derivado del audio fue de aproximadamente 0,7 segundos, muy cercano a la duración de 0,79 segundos medida a partir de los hitos radiográficos. Es importante señalar que esta medición basada en sonido se mantuvo estable incluso en pacientes que presentaron alguna fuga de líquido desde la boca hacia la garganta antes de la deglución principal, un problema conocido como pobre contención oral; en contraste, la medida basada en radiografía se alargó en estos casos. Esto sugiere que el método sonoro se centra en la acción faríngea esencial en lugar de confundirse por un goteo previo y pasivo.

Qué podría significar esto para la atención cotidiana
Para pacientes y clínicos, el mensaje clave es que un sensor sencillo montado en el cuello junto con un algoritmo de segmentación automático puede ofrecer una estimación fiable de la eficiencia con la que la garganta despeja un sorbo de líquido fino. Aunque no captura todas las fases de la deglución y puede subestimar el tiempo total en personas con problemas severos de control bucal, sigue de cerca la fase faríngea que importa para despejar el material de forma segura. Esto abre la puerta a cribados junto a la cama y en el hogar que se puedan repetir con frecuencia, sin radiografías ni interpretación especializada. Con más validación, medidas basadas en audio podrían ayudar a detectar antes el deterioro de la deglución, orientar la terapia y prevenir complicaciones como la neumonía por aspiración —todo ello convirtiendo los sonidos ocultos de una deglución en información sanitaria utilizable.
Cita: Jayatilake, D., Teramoto, Y., Ueno, T. et al. Validation of automated 5 mL thin liquid swallowing sound segmentation for estimating audio-derived pharyngeal clearance time. Sci Rep 16, 11908 (2026). https://doi.org/10.1038/s41598-026-39699-7
Palabras clave: disfagia, sonidos de la deglución, sensores vestibles, tiempo de aclaramiento faríngeo, salud digital