Clear Sky Science · pl
Wykorzystanie uczenia maszynowego i głosu do wieloklasowej klasyfikacji choroby Parkinsona, przewlekłej obturacyjnej choroby płuc i osób zdrowych
Słuchając choroby przez ludzki głos
Większość z nas rzadko zastanawia się, ile nasz głos ujawnia o stanie zdrowia. Tymczasem subtelne zmiany wysokości tonu, równowagi czy zadyszki mogą nieść wskazówki o zaburzeniach wpływających na mózg i płuca. W tym badaniu sprawdzono, czy krótkie nagranie osoby wymawiającej samogłoskę „ah” do smartfona, połączone z nowoczesnym uczeniem maszynowym, może pomóc odróżnić osoby z chorobą Parkinsona, z przewlekłą obturacyjną chorobą płuc (POChP) oraz zdrowe starsze osoby.

Dlaczego Parkinson i POChP wpływają na brzmienie głosu
Choroba Parkinsona jest najbardziej znana z drżeń i sztywności, ale często powoduje też cichszą, bardziej monotonną i mniej wyraźną mowę. POChP, przewlekła choroba płuc, zwęża drogi oddechowe i utrudnia oddychanie, co z kolei może sprawiać, że głos staje się słabszy, chrypliwy lub zadyszany. Chociaż obie choroby zaburzają prosty akt wytwarzania dźwięku, lekarzom wciąż brakuje szybkich i obiektywnych testów opartych na głosie. Wcześniejsze badania najczęściej prosiły komputer o rozróżnienie jedynie „pacjent” kontra „zdrowy”, zwykle dla jednej choroby i w obrębie jednego języka. Autorzy postawili trudniejsze i bardziej realistyczne pytanie: czy jeden system potrafi wysłuchać bardzo prostych dźwięków mowy, w różnych językach, i jednocześnie przyporządkować osoby do trzech grup?
Jak badacze zebrali i przetworzyli głosy
Zespół połączył dwie duże kolekcje nagrań głosu wykonanych na urządzeniach mobilnych. Jedna, z projektu mPower, zawierała anglojęzycznych mówców z chorobą Parkinsona i ochotników zdrowych. Druga, nazwana COPDVD, obejmowała szwedzkojęzycznych pacjentów z POChP oraz dopasowane grupy kontrolne zdrowych osób. Aby uczynić grupy porównywalnymi, badacze starannie wybrali podobne liczby mężczyzn i kobiet, z zbliżonym wiekiem i liczbą nagrań, w efekcie analizując 96 osób i 1 723 użyteczne nagrania utrzymanej samogłoski „ah”. Usunęli fragmenty ciszy, a następnie przekształcili każde nagranie w 102-elementowy opis, który uchwycił podstawowe miary głosu, takie jak wysokość tonu i chropowatość, oraz szczegółowe odciski spektrogramowe znane jako współczynniki Mel Frequency Cepstral Coefficients.

Nauczanie zespołu algorytmów, by słuchał i głosował
Zamiast polegać na jednej metodzie uczenia maszynowego, badacze zbudowali „komitet głosujący” z czterech różnych klasyfikatorów. Każdy algorytm analizował zestaw cech nagrania i wydawał własne przypuszczenie, czy pochodzi ono od osoby z chorobą Parkinsona, z POChP, czy od zdrowej osoby, wraz z prawdopodobieństwem dla każdej opcji. Następnie uśredniono te prawdopodobieństwa, tak aby ostateczna odpowiedź odzwierciedlała konsensus grupy. Aby nie dać się zwieść przeuczeniu, zespół zastosował rygorystyczną strategię treningową: modele były dostrajane i testowane wielokrotnie na oddzielnych fragmentach danych, a końcowa wydajność oceniana na całkowicie odrębnym zbiorze osób, których nagrań algorytmy nigdy wcześniej nie widziały podczas treningu.
Co system usłyszał w głosach
Na tym niezależnym zbiorze testowym zespół osiągnął około 84 procent dokładności ogólnej oraz zrównoważony wynik F1 tuż poniżej 0,84, co oznacza, że dobrze radził sobie we wszystkich trzech grupach mimo różnic w rozmiarach próbek. System był szczególnie dobry w wykrywaniu choroby Parkinsona, która osiągnęła najwyższą precyzję i czułość. Głosy osób zdrowych klasyfikowano z umiarkowanym powodzeniem, podczas gdy głosy osób z POChP były najtrudniejsze do zidentyfikowania i najczęściej mylone z nagraniami zdrowych osób. Co istotne, Parkinson i POChP rzadko były mylone ze sobą, co sugeruje, że ich sygnatury wokalne, chociaż obie odstające od normy, różnią się w sposób wykrywalny przez algorytmy. Gdy badacze zbadali, jak samogłoski wypełniają akustyczną „przestrzeń” zdefiniowaną przez częstotliwości formantów, znaleźli subtelne, lecz spójne przesunięcia i rozproszenia między trzema grupami, nawet pomimo różnic językowych.
Zajrzeć do „czarnej skrzynki”
Aby zrozumieć, co kierowało decyzjami systemu, zespół użył współczesnego narzędzia wyjaśniającego, które przypisuje każdej cesze głosu ocenę wpływu. Odkryli, że najważniejsze cechy akustyczne nie były takie same dla każdej grupy. Wiek, szczegóły kształtów spektralnych i miary związane z wysokością tonu miały znaczenie, ale w różnych kombinacjach dla choroby Parkinsona, POChP i osób zdrowych. Na przykład pewne opisy spektralne i wzorce formantowe miały większy wpływ w POChP, podczas gdy konkretne cechy spektralne i wskazówki związane z wysokością tonu odgrywały silniejszą rolę w chorobie Parkinsona. Taki układ wskazuje, że model naprawdę nauczył się aspektów specyficznych dla chorób dotyczących tego, jak ludzie produkują utrzymaną samogłoskę, zamiast jedynie wykrywać, że głos brzmi „nietypowo”.
Co to może znaczyć dla codziennej opieki
Mówiąc prosto, praca ta pokazuje, że krótkie, utrzymane „ah” nagrane zwykłym urządzeniem mobilnym może zawierać wystarczająco dużo informacji, by starannie zaprojektowany system uczenia maszynowego rozróżnił problemy głosowe związane z mózgiem i płucami oraz normalne zmiany związane z wiekiem. Podejście to nie zastępuje diagnozy medycznej i potrzebne są większe, bardziej zróżnicowane badania, ale wskazuje drogę ku przyszłości, w której szybkie, nieinwazyjne badania głosu mogłyby wspierać klinicystów w przesiewaniu i monitorowaniu osób z chorobą Parkinsona lub POChP, nawet w różnych językach i środowiskach.
Cytowanie: Idrisoglu, A., Behrens, A. Use of machine learning and voice for multiclass classification of Parkinson’s disease, chronic obstructive pulmonary disease, and healthy controls. Sci Rep 16, 15485 (2026). https://doi.org/10.1038/s41598-026-53409-3
Słowa kluczowe: choroba Parkinsona, POChP, biomarker głosowy, uczenie maszynowe, zdrowie mobilne