Clear Sky Science · it

L’intelligenza collettiva e aumentata superano l’intelligenza artificiale nei test di riconoscimento delle emozioni

· Torna all'indice

Perché questo conta nella vita quotidiana

Chi è più bravo a leggere le emozioni guardando solo gli occhi di qualcuno: le persone o le macchine? Mentre i sistemi di intelligenza artificiale entrano in scuole, cliniche e luoghi di lavoro, molti strumenti promettono di giudicare umori e stati mentali dal volto. Questo studio mostra che, sebbene un potente modello di IA possa battere la maggior parte delle singole persone nei test di laboratorio sul riconoscimento emotivo, i gruppi di persone che lavorano indipendentemente restano in vantaggio, e i risultati migliori si ottengono quando i giudizi umani e quelli della macchina vengono combinati.

Figure 1. Persone e IA insieme giudicano le emozioni dagli occhi più accuratamente di ciascuno separatamente.
Figure 1. Persone e IA insieme giudicano le emozioni dagli occhi più accuratamente di ciascuno separatamente.

Come funzionano i test di lettura delle emozioni

I ricercatori si sono concentrati su due compiti di laboratorio ampiamente usati che chiedono alle persone di inferire sentimenti e pensieri partendo solo da fotografie della regione degli occhi. In ogni test, gli osservatori vedono un’immagine e devono scegliere quale delle quattro parole brevi corrisponde meglio allo stato mentale della persona. Un test usa foto in bianco e nero tratte principalmente da un unico gruppo etnico, mentre la versione più recente include immagini a colori di persone da contesti più diversificati e utilizza un vocabolario più semplice. Decenni di ricerche collegano i punteggi a questi test con abilità sociali e risultati clinici, anche se non sono specchi perfetti della vita emotiva reale.

Come si confronta un’IA all’avanguardia con le singole persone

Il team ha valutato un forte modello linguistico multimodale chiamato GPT‑5 mini, in grado di analizzare immagini e testo. Hanno eseguito il modello 100 volte su ogni elemento di test, senza fornire esempi di addestramento, per catturare la sua prestazione di base. Rispetto ai dati di oltre 27.000 partecipanti umani, GPT‑5 mini ha risposto correttamente circa l’83 percento delle volte in entrambi i test, nettamente al di sopra delle medie umane del 71 e del 63 percento. Analisi dettagliate lungo l’intero spettro di abilità umane hanno mostrato che l’IA ha superato quasi tutte le persone con punteggi bassi e medi. Sul test più vecchio, tuttavia, i migliori umani hanno pareggiato o superato di poco il modello, mentre sul test multirazziale più recente l’IA ha mantenuto il vantaggio anche tra i top scorer.

Perché le folle di persone battono le folle di macchine

Successivamente, i ricercatori hanno chiesto cosa succede quando si raggruppano molte risposte separate. Hanno simulato folle campionando ripetutamente insiemi di persone, o insiemi di esecuzioni dell’IA, e lasciando vincere la risposta più comune, una regola semplice chiamata voto per pluralità. Le folle umane miglioravano nettamente con l’aumentare della dimensione; quando si combinavano le risposte di 100 persone, l’accuratezza su un test si avvicinava alla perfezione. Al contrario, le folle di IA guadagnavano poco aggiungendo altre esecuzioni. Diverse chiamate allo stesso modello tendevano a ripetere gli stessi errori, quindi il gruppo non riusciva a correggere i propri sbagli. In pratica, era come chiedere più volte la stessa cosa allo stesso esperto, invece di attingere a esperienze di vita diverse.

Umani e IA insieme funzionano meglio

Il passo finale è stato mescolare i voti umani e quelli dell’IA. I ricercatori hanno costruito folle ibride in cui la maggior parte dei membri erano persone e una quota minore erano esecuzioni dell’IA, con ciascuna parte che forniva risposte in modo indipendente prima della combinazione. Questi gruppi aumentati hanno costantemente superato sia le folle composte solo da umani sia quelle composte solo da IA. Sul test più recente e inclusivo, né gli umani né l’IA da soli riuscivano ad andare oltre circa il 95 percento di accuratezza, ma i gruppi misti hanno raggiunto circa il 98 percento, e lo hanno fatto con dimensioni di gruppo più ridotte. Questo schema suggerisce che persone e macchine tendono a commettere tipi diversi di errori, dunque i loro punti di forza si completano naturalmente.

Figure 2. Gli errori umani e quelli dell’IA differiscono, quindi combinare le loro ipotesi sulle emozioni produce una decisione finale più accurata.
Figure 2. Gli errori umani e quelli dell’IA differiscono, quindi combinare le loro ipotesi sulle emozioni produce una decisione finale più accurata.

Cosa significa per l’uso dell’IA emotiva

Lo studio conclude che confrontare l’IA con un “essere umano medio” può essere fuorviante, perché ignora la potenza del giudizio collettivo umano. Un modello potente come GPT‑5 mini può superare la maggior parte degli individui in test ristretti di laboratorio, ma può comunque risultare inferiore a ciò che gruppi diversi di persone possono raggiungere insieme, soprattutto quando le macchine ripetono gli stessi errori. L’approccio più affidabile per compiti come leggere le emozioni dai volti non è sostituire le persone con l’IA, ma abbinare l’intuizione umana alla coerenza della macchina in sistemi progettati con cura che mantengano gli esseri umani nel processo decisionale.

Citazione: Akben, M., Gude, V. & Ajjan, H. Collective and augmented intelligence outperform artificial intelligence on emotion recognition tests. Sci Rep 16, 14823 (2026). https://doi.org/10.1038/s41598-026-45331-5

Parole chiave: riconoscimento delle emozioni, intelligenza collettiva, collaborazione uomo‑IA, IA multimodale, cognizione sociale