Clear Sky Science · nl

Collectieve en aangevulde intelligentie overtreffen kunstmatige intelligentie bij tests voor emotieherkenning

· Terug naar het overzicht

Waarom dit van belang is voor het dagelijks leven

Wie leest emoties beter af uit een blik op iemands ogen: mensen of machines? Nu AI‑systemen hun intrede doen in scholen, klinieken en op de werkplek, beloven veel tools stemmingen en mentale toestanden van gezichten af te leiden. Deze studie laat zien dat hoewel een krachtig AI‑model het kan winnen van de meeste individuele mensen op labtests voor emotieherkenning, groepen mensen die onafhankelijk werken nog steeds beter presteren, en de beste resultaten ontstaan wanneer menselijke en machinale oordelen worden gecombineerd.

Figure 1. Mensen plus AI beoordelen emoties vanuit de ogen samen nauwkeuriger dan elk van beide afzonderlijk.
Figure 1. Mensen plus AI beoordelen emoties vanuit de ogen samen nauwkeuriger dan elk van beide afzonderlijk.

Hoe de tests voor emotieherkenning werken

De onderzoekers richtten zich op twee veelgebruikte labtaken waarin mensen worden gevraagd gevoelens en gedachten af te leiden alleen op basis van foto’s van het ooggebied. In elke test zien deelnemers een afbeelding en moeten ze kiezen welk van vier korte woorden het beste bij de mentale toestand van de persoon past. De ene test gebruikt zwart‑wit foto’s, hoofdzakelijk van één etnische groep, terwijl de nieuwere versie kleurenfoto’s bevat van mensen uit meer diverse achtergronden en eenvoudigere woordenschat gebruikt. Decennia aan onderzoek verbinden scores op deze tests met sociale vaardigheden en klinische uitkomsten, ook al zijn ze geen perfecte afspiegeling van emotioneel gedrag in de echte wereld.

Hoe een toonaangevende AI zich verhoudt tot individuele mensen

Het team evalueerde een sterk multimodaal taalmodel genaamd GPT‑5 mini, dat beelden en tekst kan analyseren. Ze lieten het model 100 keer elk testitem doorlopen, zonder oefenvoorbeelden, om de basisprestatie vast te leggen. Vergeleken met gegevens van meer dan 27.000 menselijke deelnemers gaf GPT‑5 mini in beide tests ongeveer 83 procent goede antwoorden, duidelijk boven de menselijke gemiddelden van 71 en 63 procent. Gedetailleerde analyses over het volledige bereik van menselijke prestaties lieten zien dat de AI bijna alle laag- en middenpresteerders overtrof. Bij de oudere test matchten of overtroffen de allerbeste menselijke scorers het model lichtjes, terwijl het model op de nieuwere multiraciale test zijn voorsprong ook in het topsegment behield.

Waarom menigten van mensen beter zijn dan menigten van machines

Vervolgens onderzochten de onderzoekers wat er gebeurt wanneer veel losse antwoorden worden samengevoegd. Ze simuleerden menigten door herhaaldelijk sets mensen of sets AI‑runs te bemonsteren en het meest voorkomende antwoord te laten winnen, een eenvoudige regel die plurality voting wordt genoemd. Menselijke menigten verbeterden sterk naarmate ze groter werden; wanneer de antwoorden van 100 mensen werden gecombineerd, kwam de nauwkeurigheid op één test in de buurt van perfectie. Daarentegen wonnen AI‑menigten weinig met meer runs. Verschillende aanroepen van hetzelfde model bleken vaak dezelfde fouten te herhalen, zodat de groep zichzelf niet kon corrigeren. In feite was dit vergelijkbaar met het steeds opnieuw dezelfde expert dezelfde vraag stellen, in plaats van te putten uit gevarieerde levenservaringen.

Mensen en AI samen werken het best

De laatste stap was het mengen van menselijke en AI‑stemmen. De onderzoekers bouwden hybride menigten waarbij de meerderheid uit mensen bestond en een kleiner deel uit AI‑runs, waarbij elke kant onafhankelijk antwoorden bijdroeg voordat ze werden gecombineerd. Deze aangevulde groepen presteerden consequent beter dan zowel alleen‑mens‑ als alleen‑AI‑menigten. Op de nieuwere, meer inclusieve test konden noch mensen noch AI alleen verder komen dan ongeveer 95 procent nauwkeurigheid, maar de gemengde groepen bereikten ongeveer 98 procent, en dat met kleinere groepsgroottes. Dit patroon suggereert dat mensen en machines geneigd zijn verschillende soorten fouten te maken, zodat hun sterke punten elkaar natuurlijk aanvullen.

Figure 2. Fouten van mensen en AI verschillen, dus het combineren van hun emotiegerelateerde gissingen levert een nauwkeurigere eindbeslissing op.
Figure 2. Fouten van mensen en AI verschillen, dus het combineren van hun emotiegerelateerde gissingen levert een nauwkeurigere eindbeslissing op.

Wat dit betekent voor het gebruik van emotie‑AI

De studie concludeert dat het vergelijken van AI met een “gemiddelde mens” misleidend kan zijn, omdat dat de kracht van collectief menselijk oordeel negeert. Een sterk model als GPT‑5 mini kan het beter doen dan de meeste individuen op smalle labtests, maar toch tekortschieten bij wat diverse groepen mensen samen kunnen bereiken, vooral wanneer machines simpelweg steeds dezelfde fouten maken. De meest betrouwbare aanpak voor taken zoals het aflezen van emoties uit gezichten is dus niet om AI mensen te laten vervangen, maar menselijk inzicht te combineren met machineconsistentie in zorgvuldig ontworpen systemen die mensen in de besluitvorming houden.

Bronvermelding: Akben, M., Gude, V. & Ajjan, H. Collective and augmented intelligence outperform artificial intelligence on emotion recognition tests. Sci Rep 16, 14823 (2026). https://doi.org/10.1038/s41598-026-45331-5

Trefwoorden: emotieherkenning, collectieve intelligentie, mens‑AI samenwerking, multimodale AI, sociale cognitie