Clear Sky Science · sv
Osäkerhetsmodellering i multimodal talanalys över psykos-spektrumet
Lyssna efter dolda tecken i vardagligt tal
Psykos uppfattas ofta som plötsligt och dramatiskt—röster, syner och en brytning med verkligheten. Men länge innan en kris kan subtila förändringar visa sig i hur människor talar: röstläge, ordval och till och med rytmen i meningarna. Denna studie undersöker om datorer kan upptäcka dessa svaga signaler i talet och, något avgörande, ange hur säkra de är på det de hör. Genom detta pekar arbetet mot framtida verktyg som kan hjälpa kliniker att följa mental hälsa mer objektivt och individualisera vården över hela spektrat från lätt risk till fullt insjuknande.
Från vardagligt prat till kliniska intervjuer
Forskarlaget spelade in tal från 114 tysktalande frivilliga som täckte psykos-spektrumet: personer med tidiga psykotiska störningar och personer utan diagnoser men med låga eller höga nivåer av psykosliknande drag (kända som schizotypi). Varje person utförde fyra typer av taluppgifter, från strukturerade kliniska intervjuer till mer fritt berättande om sitt liv, bildbaserade berättelser och vardagligt samtal. Dessa olika kontexter är viktiga eftersom en strikt styrd intervju kan framkalla vissa symtom, som affektavtrubbning, medan öppna berättelser kan avslöja vandrande tankar eller ovanliga upplevelser. Genom att samla in material från flera situationer kunde teamet se hur tillförlitligt tal signalerade symtom i verklighetsnära situationer.

Höra både hur vi talar och vad vi säger
Studien använder ett system som lyssnar på två sidor av talet samtidigt. På ljudsidan spåras egenskaper som tonhöjdsförändringar, ljudstyrka och röstens fina struktur, vilket tillsammans fångar uttrycksfullhet, spänning och flyt. På språksidan analyseras själva orden—hur känslomässiga de är, om de fokuserar på perception eller sociala kopplingar, och hur koherenta de verkar. Avancerade neurala nätverk, ursprungligen tränade på omfattande ljud- och textkorpusar, omvandlar dessa råa signaler till kompakt numeriska fingeravtryck. Kärnmodellen fusionerar sedan dessa fingeravtryck över tid så att den kan bedöma, ögonblick för ögonblick, vilken kanal—ljud eller språk—som ger den mest pålitliga ledtråden om en persons mentala tillstånd.
Att lära modellen att erkänna när den är osäker
Det som särskiljer detta arbete är att modellen inte bara ger en prediktion; den uppskattar också sin egen osäkerhet. Istället för att behandla ljud- och textströmmarna som fasta representeras de som sannolikhetsmoln som kan vidgas när data är brusiga eller ovanliga. Om röstinspelningen är förvrängd eller personen mumlar nedtonar systemet ljudet och lutar sig mer mot orden. Om transkriptionen är opålitlig eller talet är extremt fragmenterat gör den tvärtom. Denna osäkerhetsmedvetna fusion, kallad Temporal Context Fusion, uppnådde god prestanda: den skiljde mellan låg schizotypi, hög schizotypi och tidig psykos med ett F1-värde på 83 % och visade välkalibrerat självförtroende, vilket innebär att dess angivna säkerhet stämde väl överens med hur ofta den faktiskt hade rätt.

Talmönster som speglar olika symtomtyper
Genom att granska modellens inre mekanismer identifierade forskarna vilka aspekter av tal som mest konsekvent följde olika symtomdimensioner. Personer med mer intensiva positiva symtom—såsom ovanliga upplevelser eller vanföreställningar—visade ofta högre och mer varierande tonhöjd, snabba skift i röstens spektrum och större svängningar i ljudstyrka, särskilt i öppet berättande. Deras språk innehöll också många perceptionsord (kopplade till att se, höra eller känna) och känsloladdade termer. I kontrast talade personer med starkare negativa symtom—såsom social tillbakadragenhet och känslomässig avtrubbning—på ett mer monotont sätt, med begränsad tonhöjd och mindre flexibel artikulation, och använde färre positiva känslo- och sociala ord. Desorganiserade drag, både hos patienter och hos hög-schizotypa frivilliga, visade sig som ostadig ljudstyrka, tveksamheter och fragmenterat språk fyllt med risk- och kognitionsprocessord, vilket antyder mental ansträngning utan tydlig struktur.
Varför detta är viktigt för framtidens psykiska vård
Tillsammans visar resultaten att tal bär på mätbara spår av psykosrelaterade drag även hos personer som inte är kliniskt sjuka, och att dessa spår skiftar beroende på samtalssituationen. Den osäkerhetsmedvetna modellen kunde utnyttja både ljud och språk för att följa positiva, negativa och desorganiserade egenskaper längs ett kontinuum, samtidigt som den öppet signalerade när dess bevis var osäkra. För en lekmannaläsare är huvudidén att noggrant lyssnande—förstärkt av AI som känner sina egna begränsningar—så småningom kan hjälpa kliniker att övervaka mental hälsa mer objektivt, minska gissningar och upptäcka meningsfulla förändringar tidigare. Snarare än att ersätta mänskligt omdöme skulle sådana verktyg kunna fungera som ett andra par öron och lyfta fram mönster i vardagligt tal som förtjänar närmare uppmärksamhet.
Citering: Rohanian, M., Hüppi, R., Nooralahzadeh, F. et al. Uncertainty modeling in multimodal speech analysis across the psychosis spectrum. npj Digit. Med. 9, 218 (2026). https://doi.org/10.1038/s41746-025-02309-3
Nyckelord: psykos, talanalys, maskininlärning, bedömning av mental hälsa, multimodal AI