Clear Sky Science · sv

Kollektiv och förstärkt intelligens överträffar artificiell intelligens i tester för känsloigenkänning

2026-03-24 · Tillbaka till index

Varför detta är viktigt i vardagen

Vem är bättre på att läsa känslor från en blick i någons ögon: människor eller maskiner? När artificiella intelligenssystem flyttar in i skolor, kliniker och arbetsplatser lovar många verktyg att bedöma sinnesstämningar och mentala tillstånd utifrån ansikten. Denna studie visar att medan en kraftfull AI-modell kan slå de flesta enskilda personer på laboratoriestandardtester för känslor, så kommer grupper av personer som arbetar oberoende fortfarande ut bättre — och de bästa resultaten uppnås när mänskliga och maskinella bedömningar kombineras.

Figure 1. Människor tillsammans med AI bedömer känslor utifrån ögon mer korrekt än någon av dem för sig.

Hur testerna för känsloavläsning fungerar

Forskarna fokuserade på två vitt spridda laboratorieuppgifter som ber människor att utifrån fotografier av ögonområdet härleda känslor och tankar. I varje test ser betraktaren en bild och måste välja vilket av fyra korta ord som bäst matchar personens mentala tillstånd. Ett test använder svartvita foton som till största delen kommer från en enda etnisk grupp, medan den nyare versionen innehåller färgbilder av människor från mer varierade bakgrunder och använder enklare vokabulär. Årtionden av forskning kopplar poäng på dessa tester till social förmåga och kliniska utfall, även om de inte är perfekta speglar av känslolivet i verkligheten.

Hur en ledande AI står sig mot enskilda människor

Teamet utvärderade en stark multimodal språkmodell kallad GPT-5 mini, som kan analysera bilder och text. De körde modellen 100 gånger på varje testobjekt, utan att ge några övningsexempel, för att fånga dess grundprestanda. Jämfört med data från mer än 27 000 mänskliga deltagare svarade GPT-5 mini korrekt ungefär 83 procent av gångerna på båda testerna, klart över människornas medelvärden på 71 respektive 63 procent. Detaljerade analyser över hela spektrumet av mänskliga förmågor visade att AI:n överträffade nästan alla låga och medelstarka poängsättare. På det äldre testet matchade eller överträffade dock de allra bästa människorna modellen något, medan AI:n behöll sitt övertag även i toppskiktet på det nyare multietniska testet.

Varför människoskaror slår maskinskaror

Nästa fråga var vad som händer när många separata svar slås ihop. De simulerade skaror genom att upprepade gånger slumpmässigt välja grupper av människor eller grupper av AI-körningar, och lät det vanligaste svaret vinna — en enkel regel kallad pluralitetsomröstning. Mänskliga skaror förbättrades kraftigt med storlek; när svaren från 100 personer kombinerades närmade sig träffsäkerheten på ett av testen perfektion. Däremot gav fler AI-körningar liten förbättring. Olika anrop till samma modell tenderade att upprepa samma misstag, så gruppen kunde inte korrigera sina egna fel. I praktiken var detta som att fråga samma expert samma fråga många gånger, istället för att dra nytta av varierade livserfarenheter.

Människor och AI tillsammans fungerar bäst

Sista steget var att blanda mänskliga och AI-röster. Forskarna byggde hybrida skaror där de flesta medlemmarna var människor och en mindre andel var AI-körningar, där varje sida bidrog med sina svar oberoende innan de kombinerades. Dessa förstärkta grupper överträffade konsekvent både enbart mänskliga och enbart AI-baserade skaror. På det nyare, mer inkluderande testet kunde varken människor eller AI ensamma nå bortom ungefär 95 procents träffsäkerhet, men de blandade grupperna nådde cirka 98 procent — och gjorde det med mindre skarstorlekar. Detta mönster tyder på att människor och maskiner tenderar att göra olika typer av misstag, så deras styrkor kompletterar naturligt varandra.

Figure 2. Mänskliga och AI-fel skiljer sig åt, så att kombinera deras gissningar om känslor ger en mer korrekt slutgiltig bedömning.

Vad detta betyder för användning av känslo-AI

Studien konkluderar att det kan vara vilseledande att jämföra AI med en ”genomsnittlig människa”, eftersom det bortser från kraften i kollektivt mänskligt omdöme. En stark modell som GPT-5 mini kan prestera bättre än de flesta individer på snäva labbtester, men ändå komma till korta jämfört med vad olika grupper av människor kan åstadkomma tillsammans, särskilt när maskiner bara upprepar samma fel. Den mest tillförlitliga strategin för uppgifter som att läsa känslor från ansikten är inte att låta AI ersätta människor, utan att para ihop mänsklig insikt med maskinens konsekvens i noggrant utformade system som behåller människor i loopen.

Citering: Akben, M., Gude, V. & Ajjan, H. Collective and augmented intelligence outperform artificial intelligence on emotion recognition tests. Sci Rep 16, 14823 (2026). https://doi.org/10.1038/s41598-026-45331-5

Nyckelord: känsloigenkänning, kollektiv intelligens, människa-AI-samarbete, multimodal AI, social kognition