Clear Sky Science · nl

Meerdere emoties en intensiteitsgestuurde responsgeneratie voor rijkere multimodale dialoog

2026-04-02 · Terug naar het overzicht

Waarom slimere chatbots meer als wij moeten aanvoelen

De meesten van ons praten nu met digitale hulpjes op onze telefoons, computers of slimme speakers. Deze systemen zijn goed in het beantwoorden van vragen, maar missen vaak de emotionele ondertoon achter onze woorden. Dit artikel verkent hoe je AI bouwt die niet alleen een enkele stemming herkent, maar meerdere gevoelens tegelijk kan mengen en de sterkte van elk gevoel kan afstemmen, door spraak, gezichtskenmerken en tekst samen te gebruiken.

Figure 1. AI-assistent die stem-, gezichts- en tekstsignalen combineert om te antwoorden met rijkere gemengde emoties.

Van eenvoudige stemmingen naar gelaagde gevoelens

Alledaagse gesprekken zijn zelden pure vreugde of pure woede. Een enkele zin kan zowel verrassing als blijdschap dragen, of woede gemengd met afkeer, en elk gevoel kan zwak of sterk zijn. Eerdere dialoogsysteem probeerden doorgaans elk bericht aan één hoofdemotie te koppelen. Zelfs wanneer ze accepteerden dat meerdere emoties aanwezig konden zijn, behandelden ze die vaak als even sterk. Daardoor klonken hun antwoorden óf vlak óf overdreven, en behielden ze niet welke emotie de reactie zou moeten domineren.

Luisteren met ogen, oren en woorden

Om dit aan te pakken bouwen de auteurs voort op een grote verzameling scènes uit acht populaire Engelstalige televisieseries, met drama en komedie. De oorspronkelijke dataset, MEIMD genoemd, labelde elke dialoogregel met meerdere emoties en een intensiteitsscore per emotie, maar bevatte alleen het scriptscript. De onderzoekers verrijken dit door de bijbehorende audio- en videoclips toe te voegen, en creëren zo een nieuwe multimodale bron genaamd MEIMD++. Nu gaat elke zin vergezeld van de stem en gezichtsuitdrukkingen van de acteur naast de woorden, wat een vollediger beeld geeft van hoe emoties daadwerkelijk worden uitgedrukt.

Figure 2. Interne blik op een AI-model dat meerdere emotionele signalen met verschillende sterktes in één reactie mengt.

Hoe het nieuwe conversatiemodel van binnen werkt

Het voorgestelde systeem, MMEI-DD genoemd, is opgebouwd uit meerdere deep-learningcomponenten die elk op een ander signaal gericht zijn. Een deel leest de tekst van de dialoog, een ander verwerkt de videoframes, en een derde luistert naar het geluid. Een speciaal module leert vervolgens hoe deze stromen zich tot elkaar verhouden, bijvoorbeeld door een scherpe toon en een frons te koppelen aan een schijnbaar neutrale zin. Deze gecombineerde representatie stelt het model in staat beter in te schatten welke emoties aanwezig zijn en hoe sterk ze zijn voordat het een antwoord kiest.

Meerdere emoties mengen met de juiste sterkte

In plaats van te kiezen voor één stemming en in één keer een antwoord te genereren, gebruikt het model een tweefasig decodeerproces. In de eerste fase produceert het een conceptantwoord gestuurd door één emotie en de gekozen intensiteit, bijvoorbeeld sterke woede. In de tweede fase verfijnt het dat concept door een tweede emotie en diens sterkte toe te voegen, zoals milde verrassing of lage afkeer. Door deze stappen te scheiden voorkomt het systeem dat één gevoel de anderen volledig overheerst en houdt het de balans tussen hen dichter bij wat in het oorspronkelijke gesprek voorkomt.

Om hun aanpak te testen vergelijken de auteurs MMEI-DD met verschillende eerdere systemen op zowel automatische scores als menselijke beoordelingen. Ze meten hoe vloeiend en relevant de antwoorden zijn, hoe goed ze overeenkomen met de bedoelde emoties, en hoe nauwkeurig de sterkte van elke emotie overeenkomt met het doel. Over deze tests heen genereert het nieuwe model meer coherente, emotioneel gedetailleerde antwoorden dan methoden die alleen tekst gebruiken of intensiteit negeren. Menselijke beoordelaars waarderen de antwoorden ook als natuurlijker en emotioneler gepast.

Wat dit betekent voor alledaagse AI-hulpjes

Voor niet-specialisten is de kernboodschap dat toekomstige chatbots en spraakassistenten mogelijk kunnen reageren niet alleen op wat we zeggen, maar op de subtiele mix van gevoelens achter onze woorden. Door gelijktijdig gebruik te maken van geluid, gezichtsuitdrukking en taal, en door meerdere emoties en hun intensiteiten zorgvuldig te sturen, komen systemen zoals MMEI-DD dichter bij gesprekken die zich begrepen voelen in plaats van slechts beantwoord.

Bronvermelding: Singh, A., Shree, R., Pandey, D. et al. Multi-emotion and intensity-driven response generation for richer multimodal dialogue. Sci Rep 16, 15696 (2026). https://doi.org/10.1038/s41598-026-41034-z

Trefwoorden: emotionele chatbots, multimodale dialoog, sentimentanalyse, emotie-intensiteit, conversatie-AI