Clear Sky Science · fr

L’intelligence collective et augmentée surpassent l’intelligence artificielle aux tests de reconnaissance des émotions

2026-03-24 · Retour à l’index

Pourquoi cela compte dans la vie quotidienne

Qui est meilleur pour lire les émotions à partir d’un simple regard sur les yeux : les êtres humains ou les machines ? À mesure que les systèmes d’intelligence artificielle pénètrent les écoles, les cabinets et les lieux de travail, de nombreux outils promettent d’estimer les humeurs et états mentaux à partir des visages. Cette étude montre que, si un modèle d’IA puissant peut battre la plupart des personnes individuelles dans des tests de laboratoire sur les émotions, des groupes de personnes travaillant indépendamment restent meilleurs, et que les meilleurs résultats apparaissent lorsque les jugements humains et machinaux sont combinés.

Figure 1. Les personnes et l’IA ensemble jugent les émotions à partir des yeux plus précisément que l’un ou l’autre seul.

Comment fonctionnent les tests de lecture des émotions

Les chercheurs se sont concentrés sur deux tâches de laboratoire largement utilisées qui demandent aux gens d’inférer sentiments et pensées uniquement à partir de photographies de la région des yeux. Dans chaque test, les observateurs voient une image et doivent choisir lequel des quatre mots courts correspond le mieux à l’état mental de la personne. Un test utilise des photos en noir et blanc issues principalement d’un seul groupe ethnique, tandis que la version plus récente inclut des images en couleur de personnes de milieux plus divers et emploie un vocabulaire plus simple. Des décennies de recherches relient les scores à ces tests aux compétences sociales et aux issues cliniques, même s’ils ne reflètent pas parfaitement la vie émotionnelle du monde réel.

Comment un modèle d’IA de pointe se compare aux individus

L’équipe a évalué un puissant modèle de langage multimodal appelé GPT‑5 mini, capable d’analyser images et textes. Ils ont exécuté le modèle 100 fois sur chaque item de test, sans lui fournir d’exemples d’entraînement, pour mesurer sa performance de base. Comparé aux données de plus de 27 000 participants humains, GPT‑5 mini a répondu correctement environ 83 % du temps sur les deux tests, nettement au‑dessus des moyennes humaines de 71 et 63 %. Des analyses détaillées sur l’ensemble de la distribution des performances humaines ont montré que l’IA surpassait presque tous les sujets à faibles et moyens scores. Sur le test plus ancien, toutefois, les meilleurs humains égalent ou devancent légèrement le modèle, tandis que sur le nouveau test multiracial l’IA conserve son avance même dans la tranche supérieure.

Pourquoi les foules humaines battent les foules de machines

Ensuite, les chercheurs ont étudié ce qui se passe lorsque de nombreuses réponses séparées sont agrégées. Ils ont simulé des foules en échantillonnant à plusieurs reprises des groupes de personnes, ou des séries d’exécutions du modèle, et en laissant la réponse la plus fréquente l’emporter, règle simple appelée vote de pluralité. Les foules humaines s’amélioraient fortement avec la taille ; lorsque l’on combinait les réponses de 100 personnes, la précision sur un test approchait la perfection. En revanche, les foules d’IA gagnèrent peu à ajouter davantage d’exécutions. Les différentes sollicitations du même modèle reproduisaient souvent les mêmes erreurs, si bien que le groupe ne pouvait pas corriger ses propres fautes. En pratique, c’était comme poser la même question au même expert à plusieurs reprises plutôt que de s’appuyer sur des expériences de vie variées.

Humains et IA ensemble fonctionnent le mieux

La dernière étape a consisté à mélanger les votes humains et IA. Les chercheurs ont construit des foules hybrides où la majorité des membres étaient des personnes et une part plus petite provenait d’exécutions de l’IA, chaque camp fournissant ses réponses indépendamment avant agrégation. Ces groupes augmentés surpassaient systématiquement les foules uniquement humaines ou uniquement IA. Sur le test plus récent et plus inclusif, ni les humains ni l’IA seuls ne pouvaient dépasser environ 95 % de précision, mais les groupes mixtes atteignaient environ 98 %, et ce avec des tailles de groupe moindres. Ce schéma suggère que les personnes et les machines ont tendance à commettre des erreurs de nature différente, de sorte que leurs forces se complètent naturellement.

Figure 2. Les erreurs des humains et de l’IA diffèrent, de sorte que la combinaison de leurs estimations d’émotion produit une décision finale plus précise.

Ce que cela signifie pour l’utilisation de l’IA émotionnelle

L’étude conclut que comparer l’IA à un « humain moyen » peut être trompeur, car cela ignore le pouvoir du jugement collectif humain. Un modèle solide comme GPT‑5 mini peut surpasser la plupart des individus sur des tests de laboratoire étroits, mais rester en deçà de ce que des groupes divers de personnes peuvent accomplir ensemble, notamment lorsque les machines répètent simplement les mêmes erreurs. L’approche la plus fiable pour des tâches comme la lecture des émotions à partir des visages n’est pas de laisser l’IA remplacer les humains, mais d’associer l’intuition humaine à la constance machine dans des systèmes conçus avec soin qui maintiennent les humains dans la boucle.

Citation: Akben, M., Gude, V. & Ajjan, H. Collective and augmented intelligence outperform artificial intelligence on emotion recognition tests. Sci Rep 16, 14823 (2026). https://doi.org/10.1038/s41598-026-45331-5

Mots-clés: reconnaissance des émotions, intelligence collective, collaboration humain‑IA, IA multimodale, cognition sociale