Clear Sky Science · sv

Användning av maskininlärning och röst för flervalsklassificering av Parkinsons sjukdom, kroniskt obstruktiv lungsjukdom och friska kontroller

2026-05-19 · Tillbaka till index

Lyssna på sjukdom genom människans röst

De flesta av oss tänker sällan på hur mycket våra röster avslöjar om vår hälsa. Men subtila förändringar i tonhöjd, stabilitet eller andningsljud kan bära ledtrådar om sjukdomar som påverkar hjärnan och lungorna. Denna studie undersöker om en kort inspelning av någon som håller vokalen ”ah” i en smartphone, i kombination med modern maskininlärning, kan hjälpa till att skilja personer med Parkinsons sjukdom, personer med kroniskt obstruktiv lungsjukdom (KOL) och friska äldre vuxna åt.

Figure 1. Enkla vokalljud inspelade med telefon matas in i en modell som sorterar röster i grupperna Parkinsons, KOL eller friska.

Varför Parkinsons och KOL påverkar hur vi låter

Parkinsons sjukdom är mest känd för skakningar och stelhet, men den gör också ofta tal mjukare, mer monotont och mindre tydligt. KOL, en långvarig lungsjukdom, smalnar luftvägarna och försvårar andningen, vilket i sin tur kan göra rösten svag, hes eller andningsbetonad. Även om båda sjukdomarna stör den enkla handlingen att skapa ljud, saknar läkare fortfarande snabba och objektiva tester baserade på röst. De flesta tidigare studier har låtit datorer skilja endast mellan ”patient” och ”frisk”, vanligen för en sjukdom åt gången och inom ett språk. Författarna ställde i stället en svårare och mer realistisk fråga: kan ett enda system lyssna på mycket enkla talljud, på olika språk, och sortera människor i tre grupper samtidigt?

Hur forskarna samlade och bearbetade rösterna

Teamet kombinerade två stora röstdatabaser inspelade på mobila enheter. Den ena, från mPower-projektet, innehöll engelsktalande med Parkinsons sjukdom och friska frivilliga. Den andra, kallad COPDVD, innehöll svensktalande med KOL och matchade friska kontroller. För att göra grupperna jämförbara valde forskarna noggrant likartade antal män och kvinnor, med liknande åldrar och inspelningsantal, och landade i 96 personer och 1 723 användbara inspelningar av utdragen ”ah”. De tog bort tysta segment och omvandlade sedan varje inspelning till en 102‑dimensionell beskrivning som fångade grundläggande röstmått som tonhöjd och skrovlighet, samt detaljerade spektrala fingeravtryck kända som Mel Frequency Cepstral Coefficients.

Figure 2. En röst blir akustiska mönster, passerar fyra modeller som röstar tillsammans och slutligen bildas tre separata röstkluster.

Att lära ett röstande team av algoritmer att lyssna

I stället för att förlita sig på en enda maskininlärningsmetod byggde forskarna en ”röstkommitté” av fyra olika klassificerare. Varje algoritm analyserade inspelningens egenskaper och gav sin egen gissning om den kom från Parkinsons, KOL eller en frisk kontroll, tillsammans med en sannolikhet för varje alternativ. Dessa sannolikheter medelvärdesättes sedan så att det slutliga svaret speglade gruppens konsensus. För att undvika att lura sig själva med överanpassning använde teamet en strikt träningsstrategi: modellerna justerades och testades många gånger på separata foldar av data, och den slutliga prestationen bedömdes på en helt separat uppsättning personer vars inspelningar algoritmerna aldrig stött på under träningen.

Vad systemet hörde i rösterna

På denna oberoende testuppsättning nådde ensemblemetoden omkring 84 procent total noggrannhet och ett balanserat F1‑värde strax under 0,84, vilket betyder att den presterade väl över alla tre grupper trots skillnader i urvalsstorlek. Systemet var särskilt bra på att upptäcka Parkinsons sjukdom, som hade högst precision och återkallelse. Friska röster klassificerades med måttlig framgång, medan KOL‑röster var svårast att identifiera och oftast förväxlades med friska inspelningar. Noterbart var att Parkinsons och KOL sällan förväxlades med varandra, vilket tyder på att deras vokala signaturer, även om båda avviker från det normala, skiljer sig på sätt som algoritmerna kunde uppfatta. När forskarna undersökte hur vokaler fyllde det akustiska ”utrymmet” definierat av deras resonansfrekvenser fann de subtila men konsekventa skift och spridningar mellan de tre grupperna, även om språken skilde sig åt.

Att titta in i den svarta lådan

För att förstå vad som styrde systemets beslut använde teamet ett modernt förklaringsverktyg som tilldelar ett inflytandepoäng till varje röstegenskap. De upptäckte att de viktigaste akustiska dragen inte var desamma för varje grupp. Ålder, detaljerade spektrala former och tonhöjdsrelaterade mått spelade alla roll, men i olika kombinationer för Parkinsons sjukdom, KOL och friska kontroller. Till exempel var vissa spektrala deskriptorer och formantmönster mer inflytelserika för KOL, medan särskilda spektrala och tonhöjdssignaler spelade en starkare roll för Parkinsons sjukdom. Detta mönster tyder på att modellen verkligen lärde sig sjukdomsspecifika aspekter av hur människor producerar en utdragen vokal, i stället för att bara upptäcka att en röst låter ”ovanlig”.

Vad detta kan betyda för vardagsvården

Enkelt uttryckt visar detta arbete att ett kort, utdraget ”ah” inspelat på en vanlig mobil enhet kan innehålla tillräckligt med information för att ett omsorgsfullt designat maskininlärningssystem ska kunna skilja mellan hjärnrelaterade och lungrelaterade röstproblem och normala åldersförändringar. Metoden ersätter inte en medicinsk diagnos, och större, mer mångsidiga studier behövs, men den pekar mot en framtid där snabba, icke‑invasiva röstkontroller kan stödja kliniker vid screening och uppföljning av personer med Parkinsons sjukdom eller KOL, även över olika språk och miljöer.

Citering: Idrisoglu, A., Behrens, A. Use of machine learning and voice for multiclass classification of Parkinson’s disease, chronic obstructive pulmonary disease, and healthy controls. Sci Rep 16, 15485 (2026). https://doi.org/10.1038/s41598-026-53409-3

Nyckelord: Parkinsons sjukdom, KOL, röstbiomarkör, maskininlärning, mobil hälsa