Clear Sky Science · es

Uso de aprendizaje automático y voz para la clasificación multiclase de la enfermedad de Parkinson, enfermedad pulmonar obstructiva crónica y controles sanos

2026-05-19 · Volver al índice

Escuchar la enfermedad a través de la voz humana

La mayoría de nosotros rara vez pensamos en cuánto revela nuestra voz sobre la salud. Sin embargo, cambios sutiles en el tono, la estabilidad o la sonoridad pueden contener pistas sobre trastornos que afectan al cerebro y a los pulmones. Este estudio explora si una breve grabación de alguien manteniendo la vocal “ah” en un teléfono inteligente, combinada con aprendizaje automático moderno, puede ayudar a distinguir personas con enfermedad de Parkinson, aquellas con enfermedad pulmonar obstructiva crónica (EPOC) y adultos mayores sanos.

Figure 1. Sonidos vocálicos sencillos grabados con el teléfono alimentan un modelo que clasifica voces en Parkinson, EPOC o grupos sanos.

Por qué Parkinson y EPOC afectan cómo suenamos

La enfermedad de Parkinson es más conocida por el temblor y la rigidez, pero también suele hacer que el habla sea más baja, monótona y menos clara. La EPOC, una enfermedad pulmonar crónica, estrecha las vías respiratorias y dificulta la respiración, lo que a su vez puede hacer que la voz sea débil, ronca o aérea. Aunque ambas enfermedades alteran el acto simple de producir sonido, los médicos aún carecen de pruebas rápidas y objetivas basadas en la voz. La mayoría de investigaciones anteriores ha pedido a los ordenadores que decidan solo entre “paciente” y “sano”, generalmente para una enfermedad a la vez y dentro de un mismo idioma. Los autores plantearon en cambio una pregunta más difícil y realista: ¿puede un solo sistema escuchar sonidos de habla muy simples, en distintos idiomas, y clasificar a las personas en tres grupos a la vez?

Cómo los investigadores recopilaron y modelaron las voces

El equipo combinó dos grandes colecciones de voz grabadas en dispositivos móviles. Una, del proyecto mPower, contenía hablantes de inglés con enfermedad de Parkinson y voluntarios sanos. La otra, llamada COPDVD, contenía hablantes de sueco con EPOC y controles sanos pareados. Para hacer los grupos comparables, los investigadores seleccionaron cuidadosamente números similares de hombres y mujeres, con edades y recuentos de grabaciones cercanos, terminando con 96 personas y 1.723 grabaciones utilizables de “ah” sostenido. Eliminaron segmentos silenciosos y luego convirtieron cada grabación en una descripción de 102 números que capturaba medidas básicas de la voz como tono y aspereza, así como huellas espectrales detalladas conocidas como coeficientes cepstrales en frecuencia Mel.

Figure 2. Una voz se convierte en patrones acústicos, pasa por cuatro modelos que votan en conjunto y termina como tres grupos de voces separados.

Enseñar a un equipo votante de algoritmos a escuchar

En lugar de confiar en un único método de aprendizaje automático, los investigadores construyeron un “comité votante” de cuatro clasificadores diferentes. Cada algoritmo procesaba el conjunto de características de una grabación y producía su propia conjetura sobre si provenía de enfermedad de Parkinson, EPOC o un control sano, junto con una probabilidad para cada opción. Estas probabilidades se promediaban para que la respuesta final reflejara el consenso del grupo. Para evitar engañarse con sobreajuste, el equipo usó una estrategia de entrenamiento estricta: los modelos se ajustaron y probaron muchas veces en pliegues separados de los datos, y el rendimiento final se juzgó en un conjunto completamente distinto de personas cuyas grabaciones los algoritmos nunca habían visto durante el entrenamiento.

Qué oyó el sistema en las voces

En este conjunto de prueba independiente, el conjunto alcanzó alrededor del 84 por ciento de precisión global y una puntuación F1 equilibrada justo por debajo de 0,84, lo que significa que funcionó bien en los tres grupos pese a las diferencias en el tamaño de las muestras. El sistema fue especialmente bueno detectando la enfermedad de Parkinson, que mostró la mayor precisión y sensibilidad. Las voces sanas se clasificaron con éxito intermedio, mientras que las voces con EPOC fueron las más difíciles de identificar y con mayor frecuencia se confundieron con grabaciones sanas. Notablemente, la enfermedad de Parkinson y la EPOC rara vez se confundieron entre sí, lo que sugiere que sus firmas vocales, aunque ambas anormales, difieren en formas que los algoritmos pudieron detectar. Cuando los investigadores examinaron cómo las vocales ocupaban el “espacio” acústico definido por sus frecuencias formantes, encontraron desplazamientos y dispersiones sutiles pero consistentes entre los tres grupos, aun cuando los idiomas diferían.

Asomarse dentro de la caja negra

Para entender qué guiaba las decisiones del sistema, el equipo utilizó una herramienta moderna de explicación que asigna una puntuación de influencia a cada característica vocal. Descubrieron que los rasgos acústicos más importantes no eran los mismos para cada grupo. La edad, formas espectrales detalladas y medidas relacionadas con el tono importaban todas, pero en combinaciones diferentes para la enfermedad de Parkinson, la EPOC y los controles sanos. Por ejemplo, ciertos descriptores espectrales y patrones de formantes fueron más influyentes en la EPOC, mientras que determinadas señales espectrales y de tono jugaron un papel más fuerte en la enfermedad de Parkinson. Este patrón sugiere que el modelo aprendió verdaderamente aspectos específicos de la enfermedad sobre cómo las personas producen una vocal sostenida, en lugar de sólo detectar que una voz suena “inusual”.

Qué podría significar esto para la atención cotidiana

En términos sencillos, este trabajo muestra que un “ah” sostenido y breve grabado en un dispositivo móvil ordinario puede contener suficiente información para que un sistema de aprendizaje automático bien diseñado distinga entre problemas de voz relacionados con el cerebro, con los pulmones y con el envejecimiento normal. El enfoque no reemplaza un diagnóstico médico, y se necesitan estudios más amplios y diversos, pero apunta hacia un futuro en el que controles vocales rápidos y no invasivos podrían ayudar a los clínicos en el cribado y seguimiento de personas con enfermedad de Parkinson o EPOC, incluso a través de diferentes idiomas y entornos.

Cita: Idrisoglu, A., Behrens, A. Use of machine learning and voice for multiclass classification of Parkinson’s disease, chronic obstructive pulmonary disease, and healthy controls. Sci Rep 16, 15485 (2026). https://doi.org/10.1038/s41598-026-53409-3

Palabras clave: enfermedad de Parkinson, EPOC, biomarcador vocal, aprendizaje automático, salud móvil