Clear Sky Science · pt

Validação da segmentação automatizada de sons de deglutição de líquido fino de 5 mL para estimar o tempo de depuração faríngea derivado do áudio

· Voltar ao índice

Por que os sons da deglutição importam

Deglutir é algo que a maioria de nós considera óbvio, mas para milhões de pessoas — especialmente idosos e portadores de doenças neurológicas — pode ser difícil e perigoso. Quando a deglutição falha, alimentos ou líquidos podem entrar nos pulmões, levando a desnutrição, asfixia ou infecções graves como pneumonia. Os melhores exames atualmente para problemas de deglutição dependem de filmes por raio‑X realizados em hospitais. Este estudo investiga uma abordagem muito mais simples: ouvir os sons da deglutição com um pequeno estetoscópio eletrônico no pescoço e usar um algoritmo de computador para avaliar quão bem a garganta está limpando cada gole de líquido.

Dos raios‑X hospitalares a ferramentas inteligentes à beira do leito

O padrão‑ouro atual para examinar a deglutição é o estudo de deglutição por videofluoroscopia, um filme por raio‑X que mostra um líquido de contraste movendo‑se da boca pela garganta. Ele revela com que rapidez e segurança o líquido passa por estruturas-chave e se algo permanece para trás. No entanto, esse exame requer equipamento especial, pessoal treinado e expõe os pacientes à radiação, tornando difícil repeti‑lo com frequência ou realizá‑lo à beira do leito ou em casa. Em contraste, a ausculta cervical — ouvir os sons vindos da garganta — pode ser feita em qualquer lugar, mas tradicionalmente é subjetiva, dependendo do ouvido do clínico. Com avanços em sensores digitais e processamento de sinal, os autores buscam transformar esses sons em uma medida numérica confiável que reflita o que os raios‑X mostram.

Figure 1
Figure 1.

Capturando o som de uma deglutição

A equipe estudou 45 pacientes em um hospital japonês que já estavam submetidos a exames por raio‑X por suspeita de problemas de deglutição e que podiam engolir com segurança um gole de 5 mililitros de líquido fino. Enquanto cada paciente engolia, usava um estetoscópio eletrônico preso ao pescoço, colocado sobre a parte frontal do mesmo. A mesma câmera de vídeo registrou tanto a tela do raio‑X quanto o sinal de áudio, permitindo que os dois fossem sincronizados com precisão. Um algoritmo de computador baseado em regras monitorou a intensidade sonora do fluxo em pequenos intervalos de tempo, marcando quando um surto de atividade começava e quando terminava. O tempo entre esses dois pontos — chamado de tempo de depuração faríngea derivado do áudio — foi tomado como o intervalo durante o qual a garganta estava ativamente movimentando o líquido.

Correlacionando eventos sonoros com movimentos reais da garganta

Para avaliar se o tempo baseado no som realmente refletia o ato físico de deglutir, um fonoaudiólogo experiente revisou os filmes por raio‑X quadro a quadro. Ele marcou três momentos-chave: quando o líquido tocou pela primeira vez a epiglote, essa estrutura em forma de aba na base da língua, quando o esfíncter esofágico superior (o portal para o esôfago) abriu e quando fechou novamente. Juntos, esses marcos definem quanto tempo o líquido passa pela garganta. Os pesquisadores então compararam esses tempos derivados do raio‑X com os pontos de início e fim baseados em som do algoritmo ao longo de 84 deglutições. O algoritmo detectou com sucesso 80 delas e, na maioria dos casos, o intervalo sonoro coincidiu fortemente com a passagem pela garganta definida nos raios‑X.

Quão bem o sincronismo coincidia?

O início detectado pelo som ocorreu após o líquido alcançar a epiglote em 96% das deglutições e geralmente dentro de cerca de meio segundo, indicando que o algoritmo não é acionado por movimentos iniciais da boca, mas por eventos na garganta. O término baseado no som tipicamente ocorreu após o fechamento do esfíncter esofágico superior, significando que o intervalo sonoro capturado cobriu a fase ativa completa do transporte faríngeo. Em média, o tempo de depuração derivado do áudio foi de aproximadamente 0,7 segundos, muito próximo da duração de 0,79 segundos medida a partir dos marcos do raio‑X. Importante, esse tempo baseado no som manteve‑se estável mesmo em pacientes que apresentaram vazamento de líquido da boca para a garganta antes da deglutição principal, um problema conhecido como contenção oral deficiente; em contraste, a medida por raio‑X se alongou nesses casos. Isso sugere que o método baseado em som foca na ação central da garganta em vez de se confundir com escorrimento passivo anterior.

Figure 2
Figure 2.

O que isso pode significar para o cuidado cotidiano

Para pacientes e clínicos, a mensagem principal é que um sensor simples montado no pescoço, combinado com um algoritmo de segmentação automático, pode fornecer uma estimativa confiável de quão eficientemente a garganta limpa um gole de líquido fino. Embora não capture todas as fases da deglutição e possa subestimar o tempo total em pessoas com problemas graves de controle oral, ele acompanha de perto a fase faríngea que importa para a eliminação segura do material. Isso abre a possibilidade de triagem à beira do leito e em domicílio que pode ser repetida com frequência, sem raios‑X ou interpretação especializada. Com validação adicional, medidas baseadas em áudio poderiam apoiar a detecção mais precoce do declínio na deglutição, orientar a terapia e ajudar a prevenir complicações como pneumonia aspirativa — tudo ao transformar os sons ocultos de uma deglutição em informação de saúde acionável.

Citação: Jayatilake, D., Teramoto, Y., Ueno, T. et al. Validation of automated 5 mL thin liquid swallowing sound segmentation for estimating audio-derived pharyngeal clearance time. Sci Rep 16, 11908 (2026). https://doi.org/10.1038/s41598-026-39699-7

Palavras-chave: disfagia, sons de deglutição, sensores vestíveis, tempo de depuração faríngea, saúde digital