Clear Sky Science · pt

Inteligência coletiva e aumentada superam a inteligência artificial em testes de reconhecimento de emoções

· Voltar ao índice

Por que isso importa no cotidiano

Quem é melhor em ler emoções a partir de um olhar: pessoas ou máquinas? À medida que sistemas de inteligência artificial entram em escolas, clínicas e locais de trabalho, muitas ferramentas prometem inferir estados de humor e mentais a partir de rostos. Este estudo mostra que, embora um modelo de IA poderoso possa superar a maioria das pessoas em testes laboratoriais de emoções, grupos de pessoas trabalhando de forma independente ainda se saem melhor, e os melhores resultados aparecem quando julgamentos humanos e de máquina são combinados.

Figure 1. Pessoas mais IA juntas julgam emoções a partir dos olhos com mais precisão do que qualquer um isoladamente.
Figure 1. Pessoas mais IA juntas julgam emoções a partir dos olhos com mais precisão do que qualquer um isoladamente.

Como funcionam os testes de leitura de emoções

Os pesquisadores se concentraram em duas tarefas de laboratório amplamente usadas que pedem às pessoas que inferam sentimentos e pensamentos apenas a partir de fotografias da região dos olhos. Em cada teste, os avaliadores veem uma imagem e devem escolher qual das quatro palavras curtas melhor corresponde ao estado mental da pessoa. Um teste usa fotos em preto e branco provenientes principalmente de um único grupo étnico, enquanto a versão mais recente inclui imagens coloridas de pessoas de origens mais diversas e usa vocabulário mais simples. Décadas de pesquisa vinculam as pontuações nesses testes a habilidades sociais e desfechos clínicos, embora não sejam espelhos perfeitos da vida emocional no mundo real.

Como um modelo líder se compara a pessoas individuais

A equipe avaliou um forte modelo de linguagem multimodal chamado GPT-5 mini, capaz de analisar imagens e texto. Eles executaram o modelo 100 vezes em cada item do teste, sem fornecer exemplos de prática, para capturar seu desempenho de linha de base. Em comparação com dados de mais de 27.000 participantes humanos, o GPT-5 mini respondeu corretamente cerca de 83% das vezes em ambos os testes, claramente acima das médias humanas de 71% e 63%. Análises detalhadas ao longo de toda a faixa de habilidade humana mostraram que a IA superou quase todas as pessoas com pontuação baixa e média. No teste mais antigo, entretanto, os melhores humanos igualaram ou superaram ligeiramente o modelo, enquanto no teste multirracial mais novo a IA manteve sua vantagem mesmo no topo.

Por que multidões de pessoas vencem multidões de máquinas

Em seguida, os pesquisadores perguntaram o que acontece quando muitas respostas separadas são agregadas. Eles simularam multidões amostrando repetidamente conjuntos de pessoas ou conjuntos de execuções da IA, e deixando a resposta mais comum vencer, uma regra simples chamada votação por pluralidade. Multidões humanas melhoraram acentuadamente com o tamanho; quando as respostas de 100 pessoas foram combinadas, a acurácia em um dos testes aproximou-se da perfeição. Em contraste, multidões de IA ganharam pouco ao adicionar mais execuções. Diferentes chamadas ao mesmo modelo tendiam a repetir os mesmos erros, de modo que o grupo não conseguia corrigir suas próprias falhas. Na prática, isso era como perguntar várias vezes ao mesmo especialista, em vez de aproveitar experiências de vida variadas.

Humanos e IA juntos funcionam melhor

O passo final foi misturar votos humanos e de IA. Os pesquisadores construíram multidões híbridas em que a maioria dos membros eram pessoas e uma parcela menor eram execuções da IA, com cada lado contribuindo respostas de forma independente antes de serem combinadas. Esses grupos aumentados superaram consistentemente tanto as multidões só de humanos quanto as só de IA. No teste mais novo e mais inclusivo, nem humanos nem IA isoladamente conseguiram superar cerca de 95% de acurácia, mas os grupos mistos alcançaram aproximadamente 98%, e o fizeram com tamanhos de multidão menores. Esse padrão sugere que pessoas e máquinas tendem a cometer tipos diferentes de erro, de modo que suas forças se complementam naturalmente.

Figure 2. Erros de humanos e de IA são diferentes, portanto combinar seus palpites sobre emoções gera uma decisão final mais precisa.
Figure 2. Erros de humanos e de IA são diferentes, portanto combinar seus palpites sobre emoções gera uma decisão final mais precisa.

O que isso significa para o uso de IA emocional

O estudo conclui que comparar IA com um "humano médio" pode ser enganoso, porque ignora o poder do julgamento coletivo humano. Um modelo forte como o GPT-5 mini pode superar a maioria dos indivíduos em testes laboratoriais restritos, mas ainda ficar aquém do que grupos diversos de pessoas podem alcançar juntos, especialmente quando as máquinas simplesmente repetem os mesmos erros. A abordagem mais confiável para tarefas como ler emoções a partir de rostos não é deixar a IA substituir as pessoas, mas emparelhar a percepção humana com a consistência da máquina em sistemas cuidadosamente projetados que mantêm os humanos no circuito.

Citação: Akben, M., Gude, V. & Ajjan, H. Collective and augmented intelligence outperform artificial intelligence on emotion recognition tests. Sci Rep 16, 14823 (2026). https://doi.org/10.1038/s41598-026-45331-5

Palavras-chave: reconhecimento de emoções, inteligência coletiva, colaboração humano IA, IA multimodal, cognição social