Clear Sky Science · pl
Modelowanie niepewności w multimodalnej analizie mowy w spektrum psychozy
Słuchając ukrytych wskazówek w codziennej mowie
Psychoza często bywa postrzegana jako nagła i dramatyczna — głosy, wizje i zerwanie z rzeczywistością. Jednak na długo przed kryzysem mogą pojawić się subtelne zmiany w sposobie mówienia: barwie głosu, doborze słów, a nawet rytmie zdań. W tym badaniu sprawdzono, czy komputery potrafią wychwycić te słabe sygnały w mowie i co ważniejsze — czy potrafią ocenić, jak bardzo są pewne swoich wniosków. Takie podejście wskazuje drogę do przyszłych narzędzi, które mogłyby pomóc klinicystom w bardziej obiektywnym śledzeniu zdrowia psychicznego i personalizacji opieki w całym spektrum od niskiego ryzyka po pełnoobjawową chorobę.
Od rozmów codziennych po wywiady kliniczne
Badacze nagrali mowę 114 niemieckojęzycznych ochotników obejmujących spektrum psychozy: osoby z wczesnymi zaburzeniami psychotycznymi oraz osoby bez diagnozy, ale o niskim lub wysokim nasileniu cech przypominających psychozę (tzw. schizotypia). Każda osoba wykonywała cztery rodzaje zadań mówionych — od ustrukturyzowanych wywiadów klinicznych po swobodniejsze autobiograficzne opowieści, opowiadanie obrazków i rozmowy codzienne. Różne konteksty mają znaczenie, ponieważ rygorystyczny wywiad może uwypuklić pewne objawy, jak spłycenie emocjonalne, podczas gdy otwarte narracje mogą ujawnić błądzące myśli lub nietypowe spostrzeżenia. Próbkując w różnych sytuacjach, zespół mógł ocenić, jak wiarygodnie mowa sygnalizuje objawy w warunkach przypominających rzeczywistość.

Słyszenie zarówno jak mówimy, jak i co mówimy
System użyty w badaniu jednocześnie analizuje dwie strony mowy. Po stronie dźwiękowej śledzi cechy takie jak zmiany wysokości tonu, głośność oraz drobna struktura głosu, które razem oddają ekspresję, napięcie i płynność. Po stronie językowej analizuje same słowa — ich emocjonalność, czy odnoszą się do percepcji lub relacji społecznych oraz jak spójne są wypowiedzi. Zaawansowane sieci neuronowe, wstępnie wytrenowane na dużych zbiorach audio i tekstu, przekształcają te surowe sygnały w zwarte numeryczne odciski. Rdzeń modelu następnie łączy te odciski w czasie, aby na bieżąco oceniać, która z kanałów — dźwięk czy język — dostarcza bardziej wiarygodnej wskazówki o stanie psychicznym osoby.
Nauka modelu przyznawania się do niepewności
Co wyróżnia tę pracę, to fakt, że model nie tylko podaje predykcję, ale też szacuje własną niepewność. Zamiast traktować strumienie audio i tekstu jako stałe, reprezentuje je jako chmury prawdopodobieństwa, które mogą się rozszerzać, gdy dane są zaszumione lub nietypowe. Jeśli nagranie głosu jest zniekształcone lub osoba mamrocze, system deprecjonuje dane dźwiękowe i bardziej polega na słowach. Gdy transkrypcja jest niewiarygodna albo mowa silnie fragmentaryczna, postępuje odwrotnie. Ta świadoma niepewność fuzja, nazwana Temporal Context Fusion, osiągnęła wysoką wydajność: rozróżniała grupy o niskiej schizotypii, wysokiej schizotypii i wczesnej psychozie z F1 na poziomie 83% oraz wykazywała dobrą kalibrację pewności, co oznacza, że deklarowana pewność dobrze odpowiadała rzeczywistej trafności.

Wzorce mowy odzwierciedlające różne typy objawów
Analizując wnętrze modelu, badacze zidentyfikowali, które aspekty mowy najkonsekwentniej odzwierciedlają różne wymiary objawów. Osoby z bardziej nasilonymi objawami pozytywnymi — takimi jak nietypowe doświadczenia czy urojenia — miały tendencję do wyższego i bardziej zmiennego tonu, szybkich przesunięć w spektrum brzmienia głosu oraz większych wahań głośności, zwłaszcza w swobodnym opowiadaniu. Ich język zawierał też więcej słów związanych z percepcją (odnoszących się do widzenia, słyszenia lub odczuwania) oraz wyrażeń nacechowanych emocjonalnie. Natomiast osoby z silniejszymi objawami negatywnymi — takimi jak wycofanie społeczne i spłycenie emocjonalne — mówiły bardziej monotonnym głosem, z ograniczoną skalą tonu i mniej elastyczną artykulacją, używając przy tym mniej słów o pozytywnym zabarwieniu emocjonalnym i społecznych. Cechy dezorganizacji, zarówno u pacjentów, jak i u ochotników o wysokiej schizotypii, ujawniały się niestabilną głośnością, zawahaniami i fragmentarycznym językiem pełnym słów związanych z ryzykiem i procesami poznawczymi, co sugeruje wysiłek umysłowy bez jasnej struktury.
Dlaczego to ma znaczenie dla przyszłej opieki psychicznej
Podsumowując, wyniki pokazują, że mowa niesie mierzalne ślady cech związanych z psychozą nawet u osób, które nie są klinicznie chore, i że te ślady zmieniają się w zależności od sytuacji mówienia. Model uwzględniający niepewność potrafił wykorzystać zarówno dźwięk, jak i język do śledzenia cech pozytywnych, negatywnych i dezorganizacyjnych wzdłuż kontinuum, jednocześnie otwarcie sygnalizując, gdy dowody były słabe. Dla laika kluczową ideą jest to, że uważne słuchanie — wzmocnione przez SI, która zna swoje ograniczenia — mogłoby w przyszłości pomóc klinicystom monitorować zdrowie psychiczne bardziej obiektywnie, zmniejszyć domysły i szybciej wykrywać istotne zmiany. Zamiast zastępować ludzkie osądy, takie narzędzia mogłyby pełnić rolę drugiego ucha, wskazując wzorce w codziennej mowie, które zasługują na bliższe zwrócenie uwagi.
Cytowanie: Rohanian, M., Hüppi, R., Nooralahzadeh, F. et al. Uncertainty modeling in multimodal speech analysis across the psychosis spectrum. npj Digit. Med. 9, 218 (2026). https://doi.org/10.1038/s41746-025-02309-3
Słowa kluczowe: psychoza, analiza mowy, uczenie maszynowe, ocena zdrowia psychicznego, multimodalne SI