Clear Sky Science · pl

Modelowanie niepewności w multimodalnej analizie mowy w spektrum psychozy

· Powrót do spisu

Słuchając ukrytych wskazówek w codziennej mowie

Psychoza często bywa postrzegana jako nagła i dramatyczna — głosy, wizje i zerwanie z rzeczywistością. Jednak na długo przed kryzysem mogą pojawić się subtelne zmiany w sposobie mówienia: barwie głosu, doborze słów, a nawet rytmie zdań. W tym badaniu sprawdzono, czy komputery potrafią wychwycić te słabe sygnały w mowie i co ważniejsze — czy potrafią ocenić, jak bardzo są pewne swoich wniosków. Takie podejście wskazuje drogę do przyszłych narzędzi, które mogłyby pomóc klinicystom w bardziej obiektywnym śledzeniu zdrowia psychicznego i personalizacji opieki w całym spektrum od niskiego ryzyka po pełnoobjawową chorobę.

Od rozmów codziennych po wywiady kliniczne

Badacze nagrali mowę 114 niemieckojęzycznych ochotników obejmujących spektrum psychozy: osoby z wczesnymi zaburzeniami psychotycznymi oraz osoby bez diagnozy, ale o niskim lub wysokim nasileniu cech przypominających psychozę (tzw. schizotypia). Każda osoba wykonywała cztery rodzaje zadań mówionych — od ustrukturyzowanych wywiadów klinicznych po swobodniejsze autobiograficzne opowieści, opowiadanie obrazków i rozmowy codzienne. Różne konteksty mają znaczenie, ponieważ rygorystyczny wywiad może uwypuklić pewne objawy, jak spłycenie emocjonalne, podczas gdy otwarte narracje mogą ujawnić błądzące myśli lub nietypowe spostrzeżenia. Próbkując w różnych sytuacjach, zespół mógł ocenić, jak wiarygodnie mowa sygnalizuje objawy w warunkach przypominających rzeczywistość.

Figure 1
Figure 1.

Słyszenie zarówno jak mówimy, jak i co mówimy

System użyty w badaniu jednocześnie analizuje dwie strony mowy. Po stronie dźwiękowej śledzi cechy takie jak zmiany wysokości tonu, głośność oraz drobna struktura głosu, które razem oddają ekspresję, napięcie i płynność. Po stronie językowej analizuje same słowa — ich emocjonalność, czy odnoszą się do percepcji lub relacji społecznych oraz jak spójne są wypowiedzi. Zaawansowane sieci neuronowe, wstępnie wytrenowane na dużych zbiorach audio i tekstu, przekształcają te surowe sygnały w zwarte numeryczne odciski. Rdzeń modelu następnie łączy te odciski w czasie, aby na bieżąco oceniać, która z kanałów — dźwięk czy język — dostarcza bardziej wiarygodnej wskazówki o stanie psychicznym osoby.

Nauka modelu przyznawania się do niepewności

Co wyróżnia tę pracę, to fakt, że model nie tylko podaje predykcję, ale też szacuje własną niepewność. Zamiast traktować strumienie audio i tekstu jako stałe, reprezentuje je jako chmury prawdopodobieństwa, które mogą się rozszerzać, gdy dane są zaszumione lub nietypowe. Jeśli nagranie głosu jest zniekształcone lub osoba mamrocze, system deprecjonuje dane dźwiękowe i bardziej polega na słowach. Gdy transkrypcja jest niewiarygodna albo mowa silnie fragmentaryczna, postępuje odwrotnie. Ta świadoma niepewność fuzja, nazwana Temporal Context Fusion, osiągnęła wysoką wydajność: rozróżniała grupy o niskiej schizotypii, wysokiej schizotypii i wczesnej psychozie z F1 na poziomie 83% oraz wykazywała dobrą kalibrację pewności, co oznacza, że deklarowana pewność dobrze odpowiadała rzeczywistej trafności.

Figure 2
Figure 2.

Wzorce mowy odzwierciedlające różne typy objawów

Analizując wnętrze modelu, badacze zidentyfikowali, które aspekty mowy najkonsekwentniej odzwierciedlają różne wymiary objawów. Osoby z bardziej nasilonymi objawami pozytywnymi — takimi jak nietypowe doświadczenia czy urojenia — miały tendencję do wyższego i bardziej zmiennego tonu, szybkich przesunięć w spektrum brzmienia głosu oraz większych wahań głośności, zwłaszcza w swobodnym opowiadaniu. Ich język zawierał też więcej słów związanych z percepcją (odnoszących się do widzenia, słyszenia lub odczuwania) oraz wyrażeń nacechowanych emocjonalnie. Natomiast osoby z silniejszymi objawami negatywnymi — takimi jak wycofanie społeczne i spłycenie emocjonalne — mówiły bardziej monotonnym głosem, z ograniczoną skalą tonu i mniej elastyczną artykulacją, używając przy tym mniej słów o pozytywnym zabarwieniu emocjonalnym i społecznych. Cechy dezorganizacji, zarówno u pacjentów, jak i u ochotników o wysokiej schizotypii, ujawniały się niestabilną głośnością, zawahaniami i fragmentarycznym językiem pełnym słów związanych z ryzykiem i procesami poznawczymi, co sugeruje wysiłek umysłowy bez jasnej struktury.

Dlaczego to ma znaczenie dla przyszłej opieki psychicznej

Podsumowując, wyniki pokazują, że mowa niesie mierzalne ślady cech związanych z psychozą nawet u osób, które nie są klinicznie chore, i że te ślady zmieniają się w zależności od sytuacji mówienia. Model uwzględniający niepewność potrafił wykorzystać zarówno dźwięk, jak i język do śledzenia cech pozytywnych, negatywnych i dezorganizacyjnych wzdłuż kontinuum, jednocześnie otwarcie sygnalizując, gdy dowody były słabe. Dla laika kluczową ideą jest to, że uważne słuchanie — wzmocnione przez SI, która zna swoje ograniczenia — mogłoby w przyszłości pomóc klinicystom monitorować zdrowie psychiczne bardziej obiektywnie, zmniejszyć domysły i szybciej wykrywać istotne zmiany. Zamiast zastępować ludzkie osądy, takie narzędzia mogłyby pełnić rolę drugiego ucha, wskazując wzorce w codziennej mowie, które zasługują na bliższe zwrócenie uwagi.

Cytowanie: Rohanian, M., Hüppi, R., Nooralahzadeh, F. et al. Uncertainty modeling in multimodal speech analysis across the psychosis spectrum. npj Digit. Med. 9, 218 (2026). https://doi.org/10.1038/s41746-025-02309-3

Słowa kluczowe: psychoza, analiza mowy, uczenie maszynowe, ocena zdrowia psychicznego, multimodalne SI