Clear Sky Science · it

Uso dell’apprendimento automatico e della voce per la classificazione multicategoria di malattia di Parkinson, broncopneumopatia cronica ostruttiva e controlli sani

· Torna all'indice

Ascoltare la malattia attraverso la voce umana

La maggior parte di noi raramente pensa a quanto la nostra voce riveli sulla salute. Eppure cambiamenti sottili di tono, stabilità o fiato possono portare indizi su disturbi che colpiscono cervello e polmoni. Questo studio esplora se una breve registrazione di una persona che tiene il suono vocalico “ah” sullo smartphone, combinata con moderne tecniche di apprendimento automatico, possa aiutare a distinguere persone con malattia di Parkinson, con broncopneumopatia cronica ostruttiva (BPCO) e anziani sani.

Figure 1. Semplici suoni vocalici registrati al telefono confluiscono in un modello che smista le voci in gruppi Parkinson, BPCO o sani.
Figure 1. Semplici suoni vocalici registrati al telefono confluiscono in un modello che smista le voci in gruppi Parkinson, BPCO o sani.

Perché Parkinson e BPCO influenzano il modo in cui suoniamo

La malattia di Parkinson è nota soprattutto per tremore e rigidità, ma frequentemente altera anche il parlato rendendolo più fioco, monotono e meno chiaro. La BPCO, una malattia polmonare cronica, restringe le vie aeree e rende difficile la respirazione, il che può a sua volta rendere la voce debole, rauca o con respiro udibile. Sebbene entrambe le malattie disturbino il semplice atto di produrre suono, ai medici mancano ancora test rapidi e oggettivi basati sulla voce. Gran parte delle ricerche precedenti ha chiesto ai computer di decidere solo tra “malato” e “sano”, di solito per una singola malattia alla volta e in una sola lingua. Gli autori invece hanno posto una domanda più difficile e realistica: può un singolo sistema ascoltare suoni vocali molto semplici, in lingue diverse, e smistare le persone in tre gruppi contemporaneamente?

Come i ricercatori hanno raccolto e modellato le voci

Il team ha combinato due grandi raccolte di voci registrate su dispositivi mobili. Una, dal progetto mPower, conteneva parlanti in inglese con morbo di Parkinson e volontari sani. L’altra, chiamata COPDVD, conteneva parlanti in svedese con BPCO e controlli sani abbinati. Per rendere i gruppi comparabili, i ricercatori hanno selezionato con cura numeri simili di uomini e donne, con età e conteggi di registrazione ravvicinati, ottenendo alla fine 96 persone e 1.723 registrazioni utilizzabili di “ah” sostenuto. Hanno rimosso segmenti silenziosi, quindi hanno trasformato ogni registrazione in una descrizione di 102 numeri che catturava misure vocali di base come frequenza fondamentale e ruvidezza, oltre a impronte spettrali dettagliate note come coefficienti cepstrali in frequenza di Mel.

Figure 2. Una voce viene trasformata in pattern acustici, attraversa quattro modelli che votano insieme e si ritrova divisa in tre cluster vocali distinti.
Figure 2. Una voce viene trasformata in pattern acustici, attraversa quattro modelli che votano insieme e si ritrova divisa in tre cluster vocali distinti.

Insegnare a una giuria di algoritmi ad ascoltare

Invece di affidarsi a un singolo metodo di apprendimento automatico, i ricercatori hanno costruito un “comitato di voto” composto da quattro classificatori differenti. Ogni algoritmo analizzava il set di caratteristiche di una registrazione e produceva la propria ipotesi sul fatto che provenisse da Parkinson, BPCO o da un controllo sano, insieme a una probabilità per ciascuna opzione. Queste probabilità venivano poi mediate affinché la risposta finale riflettesse il consenso del gruppo. Per evitare di illudersi con overfitting, il team ha adottato una rigorosa strategia di addestramento: i modelli sono stati ottimizzati e testati molte volte su fold separati dei dati, e le prestazioni finali sono state giudicate su un set completamente separato di persone le cui registrazioni gli algoritmi non avevano mai visto durante l’addestramento.

Cosa il sistema ha udito nelle voci

Su questo set di test indipendente, l’ensemble ha raggiunto circa l’84 percento di accuratezza complessiva e un punteggio F1 bilanciato appena sotto 0,84, il che significa che ha performato bene attraverso tutti e tre i gruppi nonostante le differenze nelle dimensioni dei campioni. Il sistema è stato particolarmente abile nel riconoscere la malattia di Parkinson, che ha mostrato la precisione e il richiamo più alti. Le voci sane sono state classificate con successo intermedio, mentre le voci con BPCO sono risultate le più difficili da identificare e sono state più spesso confuse con registrazioni di soggetti sani. È degno di nota che Parkinson e BPCO raramente sono stati scambiati l’uno per l’altro, suggerendo che le loro firme vocali, sebbene entrambe anomale, differiscono in modi che gli algoritmi sono stati in grado di cogliere. Quando i ricercatori hanno esaminato come le vocali occupavano lo “spazio” acustico definito dalle loro frequenze di risonanza, hanno trovato spostamenti e dispersioni sottili ma coerenti tra i tre gruppi, nonostante le differenze linguistiche.

Una sbirciata dentro la scatola nera

Per comprendere cosa avesse guidato le decisioni del sistema, il team ha utilizzato uno strumento moderno di spiegazione che assegna un punteggio di influenza a ciascuna caratteristica vocale. Hanno scoperto che i tratti acustici più importanti non erano gli stessi per ogni gruppo. Età, forme spettrali dettagliate e misure legate al tono hanno avuto importanza, ma in combinazioni diverse per Parkinson, BPCO e controlli sani. Per esempio, alcuni descrittori spettrali e pattern di formanti sono stati più influenti nella BPCO, mentre particolari indici spettrali e di tono hanno giocato un ruolo più forte nel Parkinson. Questo schema suggerisce che il modello ha appreso aspetti specifici della malattia su come le persone producono una vocale sostenuta, anziché limitarsi a rilevare che una voce suona “anomala”.

Cosa potrebbe significare per la cura quotidiana

In termini semplici, questo lavoro mostra che un breve “ah” sostenuto registrato con un comune dispositivo mobile può contenere informazioni sufficienti perché un sistema di apprendimento automatico accuratamente progettato distingua tra problemi vocali di origine cerebrale, di origine polmonare e voci dovute al normale invecchiamento. L’approccio non sostituisce una diagnosi medica, e sono necessari studi più ampi e più diversi, ma indica una direzione verso un futuro in cui rapidi controlli vocali non invasivi potrebbero supportare i clinici nello screening e nel monitoraggio di persone con Parkinson o BPCO, anche attraverso lingue e contesti diversi.

Citazione: Idrisoglu, A., Behrens, A. Use of machine learning and voice for multiclass classification of Parkinson’s disease, chronic obstructive pulmonary disease, and healthy controls. Sci Rep 16, 15485 (2026). https://doi.org/10.1038/s41598-026-53409-3

Parole chiave: malattia di Parkinson, BPCO, biomarker vocale, apprendimento automatico, salute mobile