Clear Sky Science · sv
Utvärdering av tvär-etniska förmågor för igenkänning av känslor i multimodala stora språkmodeller med hjälp av "Reading the Mind in the Eyes"-testet
Varför detta är viktigt i vardagen
Tänk dig ett datorprogram som kan titta på en persons ögon och gissa vad personen känner—ibland mer precist än de flesta människor. Denna studie undersöker om sådana system kan göra detta rättvist för personer med olika etnisk bakgrund. När artificiell intelligens (AI) används inom vård, utbildning och vardagliga appar är det avgörande för förtroende, säkerhet och etik att veta om de behandlar olika grupper lika.

Att leta känslor i ögonen
Forskarna fokuserade på ett välkänt psykologiskt test kallat "Reading the Mind in the Eyes." I detta test visas endast ögonregionen i ett ansikte och betraktaren måste välja vilken känsla eller sinnestillstånd ögonen uttrycker. Det finns tre versioner av testet, var och en med foton av vita, svarta eller koreanska individer. Människor har ofta svårare att bedöma känslor i ansikten från en annan etnisk grupp, ett mönster känt som "other-race effect." Studien frågade om avancerade AI-system visar en liknande svaghet, eller om de kan känna igen känslor lika väl över dessa olika bildset.
Tre AI-system på prov
Teamet utvärderade tre populära multimodala stora språkmodeller—system som kan bearbeta både bilder och text. De testade en äldre modell baserad på GPT-4, en nyare modell baserad på GPT-4o, och ett konkurrerande system kallat Claude 3 Opus. Varje modell genomförde alla tre versioner av ögontestet två gånger, så att forskarna kunde kontrollera både korrekthet och konsistens över tid. AI-modellerna såg varje ögonbild med fyra möjliga svar och var tvungna att välja ett, precis som en mänsklig testperson. Forskarna jämförde sedan AI:s poäng med stora grupper människor som tidigare genomfört samma test.
Hur väl maskinerna presterade
Den nyare GPT-4o-modellen utmärkte sig. Den svarade korrekt på ungefär 83 % av items för vita ansikten, 94 % för svarta ansikten och 86 % för koreanska ansikten. Dessa poäng placerade den ungefär i den 85:e till 94:e percentilen jämfört med mänsklig prestation, vilket betyder att den presterade bättre än de flesta människor som tagit dessa tester. Viktigt är att dess framgång var likartad över alla tre etniska grupper, vilket tyder på att den inte visade samma typ av etnisk partiskhet som människor ofta uppvisar i sådana uppgifter. Den äldre GPT-4-modellen presterade bättre än slumpen men låg närmare genomsnittliga mänskliga nivåer, medan Claude 3 Opus låg nära chansnivå och presterade som någon som mest gissade.

Vad AI tyckte var lätt och svårt
För att gå bortom enkla totalsummor undersökte författarna vilka typer av känslor modellerna hanterade bra respektive dåligt. Över systemen tenderade de att känna igen inre tillstånd såsom oro, obehag eller eftertänksamhet med hög träffsäkerhet. Däremot hade de större svårigheter med socialt rika, positiva uttryck som bär på interpersonell betydelse—sådant som lekfullhet, vänlighet eller flirtighet. Den nyare GPT-4o-modellen minskade dessa fel mer än de andra, vilket antyder att varje ny generation av AI kan bli bättre på att plocka upp subtila sociala signaler som tidigare modeller missade.
Vad detta kan innebära för människor
Resultaten väcker både lovande möjligheter och viktiga varningar. Å ena sidan skulle ett system som kan läsa känslor från ansikten lika bra som, eller bättre än, många människor—och göra det lika över etniska grupper—en dag kunna stödja psykologer, läkare eller lärare genom att erbjuda ett mer stabilt andraomdöme om sociala signaler. Å andra sidan har ögontestet i sig betydande vetenskapliga begränsningar och speglar kanske inte verklig social förståelse, som också beror på kroppsspråk, röstton och kontext. Författarna betonar att dessa resultat inte bevisar att AI har äkta empati eller att den är fri från partiskhet i andra sammanhang. Istället erbjuder arbetet en tidig referenspunkt: för en snäv, kontrollerad uppgift fokuserad på ögonregionen verkar åtminstone en modern AI vara mycket noggrann och relativt rättvis över olika etniska grupper, men betydligt mer forskning krävs innan sådana verktyg bör påverka verkliga beslut.
Citering: Refoua, E., Elyoseph, Z., Piterman, D. et al. Evaluation of cross-ethnic emotion recognition capabilities in multimodal large language models using the reading the mind in the eyes test. Sci Rep 16, 9975 (2026). https://doi.org/10.1038/s41598-026-39292-y
Nyckelord: igenkänning av känslor, artificiell intelligens, social kognition, tvär-etnisk partiskhet, mental hälsa