Clear Sky Science · nl

Onzekerheidsmodellering bij multimodale spraakanalyse over het psychosespectrum

· Terug naar het overzicht

Luisteren naar verborgen aanwijzingen in alledaagse spraak

Psychose wordt vaak gezien als iets plotselings en ingrijpends — stemmen, visioenen en een breuk met de realiteit. Maar lang voordat er een crisis optreedt, kunnen subtiele veranderingen optreden in hoe mensen spreken: hun intonatie, woordkeuze en zelfs het ritme van zinnen. Deze studie onderzoekt of computers die zwakke signalen in spraak kunnen oppikken en, belangrijker nog, kunnen aangeven hoe zeker ze zijn van wat ze horen. Daarmee wijst het werk op toekomstige hulpmiddelen die clinici objectiever kunnen helpen bij het volgen van de geestelijke gezondheid en het personaliseren van zorg over het hele spectrum van gering risico tot volledige ziekte.

Van informeel praten tot klinische interviews

De onderzoekers namen spraak op van 114 Duitstalige vrijwilligers die het psychosespectrum besloegen: mensen met vroege psychotische stoornissen en mensen zonder diagnose maar met lage of hoge niveaus van psychoseachtige trekken (bekend als schizotypie). Elke deelnemer voerde vier soorten spraakopdrachten uit, van gestructureerde klinische interviews tot vrijere autobiografische verhalen, verhaaltjes bij afbeeldingen en alledaagse gesprekken. Die verschillende situaties zijn belangrijk omdat een strak geleid interview bepaalde symptomen kan naar voren brengen, zoals emotionele afvlakking, terwijl open verhalende taken dwaalgedachten of ongebruikelijke waarnemingen kunnen blootleggen. Door uit verschillende contexten te bemonsteren, kon het team zien hoe betrouwbaar spraak symptomen signaleerde in situaties die op de echte wereld leken.

Figure 1
Figure 1.

Zowel hoe we spreken als wat we zeggen beluisteren

Het systeem in de studie luistert naar twee kanten van spraak tegelijk. Aan de geluidzijde volgt het kenmerken zoals toonhoogteveranderingen, luidheid en de fijne structuur van de stem, die samen expressiviteit, spanning en vloeiendheid vastleggen. Aan de taalkant analyseert het de woorden zelf — hoe emotioneel ze zijn, of ze gericht zijn op waarnemingen of sociale banden, en hoe coherent ze lijken. Geavanceerde neurale netwerken, oorspronkelijk getraind op omvangrijke audio- en tekstverzamelingen, zetten deze ruwe signalen om in compacte numerieke vingerafdrukken. Het kernmodel fuseert deze vingerafdrukken vervolgens in de tijd zodat het, moment tot moment, kan beoordelen welk kanaal — geluid of taal — de meest betrouwbare aanwijzing biedt over iemands mentale toestand.

Het model leren toe te geven wanneer het onzeker is

Wat dit werk onderscheidt, is dat het model niet alleen een voorspelling doet; het schat ook zijn eigen onzekerheid. In plaats van de audio- en tekststromen als vaststaand te beschouwen, stelt het ze voor als waarschijnlijkheidswolken die groter kunnen worden wanneer de data lawaaierig of ongebruikelijk zijn. Als de opname vervormd is of de persoon mompelt, dempt het systeem het geluid en leunt het meer op de woorden. Als de transcriptie onbetrouwbaar is of de spraak extreem gefragmenteerd, gebeurt het omgekeerde. Deze onzekerheidsbewuste fusie, Temporal Context Fusion genoemd, behaalde sterke prestaties: het onderscheidde lage schizotypie, hoge schizotypie en vroege psychosegroepen met een F1-score van 83% en toonde goed gekalibreerde vertrouwenwaardes, wat betekent dat de aangegeven zekerheid goed overeenkwam met hoe vaak de voorspelling daadwerkelijk correct was.

Figure 2
Figure 2.

Spraakpatronen die verschillende symptoomtypes weerspiegelen

Door het model diep te analyseren, identificeerden de onderzoekers welke aspecten van spraak het meest consistent verschillende symptoomdimensies volgden. Mensen met intensere positieve symptomen — zoals ongebruikelijke ervaringen of wanen — vertoonden vaak hogere en meer variabele toonhoogte, snelle verschuivingen in het stemfrequentiespectrum en grotere schommelingen in luidheid, vooral bij open verhalen. Hun taal bevatte ook veel waarnemingswoorden (verbonden aan zien, horen of voelen) en emotioneel geladen termen. Mensen met sterkere negatieve symptomen — zoals sociaal terugtrekgedrag en emotionele afvlakking — spraken daarentegen eentoniger, met beperkte toonhoogte en minder flexibele articulatie, en gebruikten minder woorden met positieve emotie en sociale inhoud. Gedesorganiseerde trekken, zowel bij patiënten als bij vrijwilligers met hoge schizotypie, verschenen als onstabiele luidheid, aarzeling en gefragmenteerde taal gevuld met risicotermen en woorden die cognitieve processen aangeven, wat wijst op mentale inspanning zonder duidelijke structuur.

Waarom dit belangrijk is voor toekomstige geestelijke gezondheidszorg

Samengenomen laten de bevindingen zien dat spraak meetbare sporen van psychosegerelateerde trekken draagt, zelfs bij mensen die niet klinisch ziek zijn, en dat die sporen verschuiven afhankelijk van de spreekcontext. Het onzekerheidsbewuste model kon zowel geluid als taal benutten om positieve, negatieve en gedesorganiseerde kenmerken langs een continuüm te volgen, terwijl het openlijk aangaf wanneer het bewijsmateriaal wankel was. Voor een leek is het kernidee dat zorgvuldiger luisteren — versterkt door AI die zijn eigen grenzen kent — clinici uiteindelijk kan helpen geestelijke gezondheid objectiever te monitoren, giswerk te verminderen en betekenisvolle veranderingen eerder te signaleren. In plaats van menselijke oordeel te vervangen, zouden zulke hulpmiddelen kunnen fungeren als een tweede paar oren dat patronen in alledaagse spraak aanwijst die nadere aandacht verdienen.

Bronvermelding: Rohanian, M., Hüppi, R., Nooralahzadeh, F. et al. Uncertainty modeling in multimodal speech analysis across the psychosis spectrum. npj Digit. Med. 9, 218 (2026). https://doi.org/10.1038/s41746-025-02309-3

Trefwoorden: psychose, spraakanalyse, machine learning, beoordeling van geestelijke gezondheid, multimodale AI