Clear Sky Science · pt

Uso de aprendizado de máquina e da voz para classificação multiclasses de doença de Parkinson, doença pulmonar obstrutiva crônica e controles saudáveis

· Voltar ao índice

Ouvindo a Doença pela Voz Humana

A maioria de nós raramente pensa quanto nossas vozes revelam sobre nossa saúde. Ainda assim, mudanças sutis em altura, estabilidade ou soprosidade podem carregar pistas sobre distúrbios que afetam o cérebro e os pulmões. Este estudo investiga se uma gravação curta de alguém sustentando a vogal “ah” em um smartphone, combinada com métodos modernos de aprendizado de máquina, pode ajudar a diferenciar pessoas com doença de Parkinson, aquelas com doença pulmonar obstrutiva crônica (DPOC) e idosos saudáveis.

Figure 1. Sons vocálicos simples gravados por telefone alimentam um modelo que classifica vozes em Parkinson, DPOC ou grupos saudáveis.
Figure 1. Sons vocálicos simples gravados por telefone alimentam um modelo que classifica vozes em Parkinson, DPOC ou grupos saudáveis.

Por que Parkinson e DPOC Afetam Nosso Som

A doença de Parkinson é mais conhecida por tremor e rigidez, mas frequentemente também torna a fala mais baixa, monótona e menos clara. A DPOC, uma doença pulmonar de longa duração, estreita as vias aéreas e dificulta a respiração, o que pode tornar a voz fraca, rouca ou soprosa. Embora ambas as doenças perturbem o ato simples de produzir som, os médicos ainda carecem de testes rápidos e objetivos baseados na voz. A maioria das pesquisas anteriores pedia aos computadores que decidissem apenas entre “paciente” e “saudável”, geralmente para uma doença por vez e dentro de um idioma. Os autores, em vez disso, fizeram uma pergunta mais difícil e realista: um único sistema pode ouvir sons vocais muito simples, em diferentes idiomas, e classificar as pessoas em três grupos ao mesmo tempo?

Como os Pesquisadores Coletaram e Prepararam as Vozes

A equipe combinou duas grandes coleções de voz gravadas em dispositivos móveis. Uma, do projeto mPower, continha falantes de inglês com doença de Parkinson e voluntários saudáveis. A outra, chamada COPDVD, continha falantes de sueco com DPOC e controles saudáveis pareados. Para tornar os grupos comparáveis, os pesquisadores selecionaram cuidadosamente números semelhantes de homens e mulheres, com idades próximas e contagens de gravação semelhantes, resultando em 96 pessoas e 1.723 gravações utilizáveis da vogal sustentada “ah”. Eles removeram segmentos silenciosos e, em seguida, transformaram cada gravação em uma descrição de 102 números que capturava medidas vocais básicas como altura e aspereza, bem como impressões digitais espectrais detalhadas conhecidas como coeficientes cepstrais em frequência de Mel.

Figure 2. Uma voz torna-se padrões acústicos, passa por quatro modelos que votam em conjunto e termina como três agrupamentos de vozes separados.
Figure 2. Uma voz torna-se padrões acústicos, passa por quatro modelos que votam em conjunto e termina como três agrupamentos de vozes separados.

Treinando um Time de Algoritmos que Votam

Em vez de confiar em um único método de aprendizado de máquina, os pesquisadores construíram um “comitê de votação” de quatro classificadores diferentes. Cada algoritmo analisava o conjunto de características de uma gravação e produzia sua própria estimativa sobre se ela vinha de Parkinson, DPOC ou um controle saudável, juntamente com uma probabilidade para cada opção. Essas probabilidades foram então médias de modo que a resposta final refletisse o consenso do grupo. Para evitar ilusões por overfitting, a equipe usou uma estratégia rigorosa de treinamento: os modelos foram ajustados e testados muitas vezes em dobras separadas dos dados, e o desempenho final foi avaliado em um conjunto completamente separado de pessoas cujas gravações os algoritmos nunca haviam visto durante o treinamento.

O que o Sistema Ouviu nas Vozes

Neste conjunto de teste independente, o conjunto atingiu cerca de 84% de acurácia geral e uma pontuação F1 balanceada pouco abaixo de 0,84, o que significa que teve bom desempenho nos três grupos apesar das diferenças no tamanho das amostras. O sistema foi especialmente bom em detectar a doença de Parkinson, que mostrou a maior precisão e sensibilidade. Vozes saudáveis foram classificadas com sucesso intermediário, enquanto vozes com DPOC foram as mais difíceis de identificar e foram mais frequentemente confundidas com gravações saudáveis. Notavelmente, Parkinson e DPOC foram raramente confundidos um com o outro, sugerindo que suas assinaturas vocais, embora ambas anormais, diferem de maneiras que os algoritmos conseguiram detectar. Quando os pesquisadores examinaram como as vogais preenchiam o “espaço” acústico definido por suas frequências ressonantes, encontraram deslocamentos e dispersões sutis, mas consistentes, entre os três grupos, mesmo com as diferenças de idioma.

Espiando Dentro da Caixa-Preta

Para entender o que guiou as decisões do sistema, a equipe usou uma ferramenta moderna de explicação que atribui uma pontuação de influência a cada característica vocal. Eles descobriram que as características acústicas mais importantes não eram as mesmas para cada grupo. Idade, formas espectrais detalhadas e medidas relacionadas à altura da voz importaram, mas em combinações diferentes para Parkinson, DPOC e controles saudáveis. Por exemplo, certos descritores espectrais e padrões de formantes foram mais influentes na DPOC, enquanto pistas espectrais e de altura específicas tiveram papel mais forte na doença de Parkinson. Esse padrão sugere que o modelo realmente aprendeu aspectos específicos de cada doença sobre como as pessoas produzem uma vogal sustentada, em vez de apenas detectar que uma voz soa “incomum”.

O Que Isso Pode Significar para o Cuidado Diário

Em termos simples, este trabalho mostra que um “ah” sustentado e curto gravado em um dispositivo móvel comum pode conter informação suficiente para que um sistema de aprendizado de máquina bem projetado distinga entre problemas vocais relacionados ao cérebro, relacionados aos pulmões e vozes decorrentes do envelhecimento normal. A abordagem não substitui um diagnóstico médico, e estudos maiores e mais diversos são necessários, mas aponta para um futuro em que verificações vocais rápidas e não invasivas possam apoiar clínicos na triagem e no monitoramento de pessoas com doença de Parkinson ou DPOC, mesmo em diferentes idiomas e contextos.

Citação: Idrisoglu, A., Behrens, A. Use of machine learning and voice for multiclass classification of Parkinson’s disease, chronic obstructive pulmonary disease, and healthy controls. Sci Rep 16, 15485 (2026). https://doi.org/10.1038/s41598-026-53409-3

Palavras-chave: doença de Parkinson, DPOC, biomarcador de voz, aprendizado de máquina, saúde móvel