Clear Sky Science · es

La inteligencia colectiva y aumentada superan a la inteligencia artificial en pruebas de reconocimiento emocional

· Volver al índice

Por qué esto importa en la vida cotidiana

¿Quién es mejor leyendo emociones con solo mirar los ojos de alguien: las personas o las máquinas? A medida que los sistemas de inteligencia artificial llegan a escuelas, clínicas y lugares de trabajo, muchas herramientas prometen juzgar el estado de ánimo y mental a partir de rostros. Este estudio muestra que, aunque un modelo de IA potente puede vencer a la mayoría de las personas en pruebas de laboratorio sobre emociones, los grupos de personas que trabajan de forma independiente siguen superando a la IA, y los mejores resultados aparecen cuando se combinan los juicios humanos y los de la máquina.

Figure 1. Personas y IA juntas juzgan las emociones a partir de los ojos con más precisión que cada una por separado.
Figure 1. Personas y IA juntas juzgan las emociones a partir de los ojos con más precisión que cada una por separado.

Cómo funcionan las pruebas de lectura emocional

Los investigadores se centraron en dos tareas de laboratorio ampliamente usadas que piden a las personas inferir sentimientos y pensamientos solo a partir de fotografías de la región de los ojos. En cada prueba, los espectadores ven una imagen y deben elegir cuál de cuatro palabras cortas encaja mejor con el estado mental de la persona. Una prueba utiliza fotos en blanco y negro tomadas mayoritariamente de un único grupo étnico, mientras que la versión más reciente incluye imágenes en color de personas de orígenes más diversos y emplea un vocabulario más sencillo. Décadas de investigación vinculan las puntuaciones en estas pruebas con habilidades sociales y resultados clínicos, aunque no son espejos perfectos de la vida emocional en el mundo real.

Cómo se compara una IA líder con personas individuales

El equipo evaluó un potente modelo de lenguaje multimodal llamado GPT-5 mini, que puede analizar imágenes y texto. Ejecutaron el modelo 100 veces en cada ítem de prueba, sin dar ejemplos de práctica, para captar su rendimiento de referencia. En comparación con datos de más de 27.000 participantes humanos, GPT-5 mini respondió correctamente alrededor del 83 por ciento de las veces en ambas pruebas, claramente por encima de los promedios humanos del 71 y 63 por ciento. Análisis detallados a lo largo de todo el rango de habilidad humana mostraron que la IA superó a casi todas las personas con puntuaciones bajas y medias. En la prueba más antigua, sin embargo, los mejores puntuadores humanos igualaron o superaron ligeramente al modelo, mientras que en la prueba multirracial más reciente la IA mantuvo la ventaja incluso en el extremo superior.

Por qué las multitudes humanas superan a las multitudes de máquinas

A continuación, los investigadores preguntaron qué ocurre cuando se agrupan muchas respuestas separadas. Simularon multitudes muestreando repetidamente conjuntos de personas, o conjuntos de ejecuciones de la IA, y dejando que la respuesta más común ganara, una regla simple llamada voto por pluralidad. Las multitudes humanas mejoraron notablemente con el tamaño; al combinar las respuestas de 100 personas, la precisión en una de las pruebas se acercó a la perfección. En contraste, las multitudes de IA ganaron poco al añadir más ejecuciones. Diferentes llamadas al mismo modelo tendían a repetir los mismos errores, por lo que el grupo no podía corregir sus propias equivocaciones. En efecto, esto era como preguntar la misma pregunta al mismo experto muchas veces, en lugar de recurrir a experiencias de vida variadas.

Humanos y IA juntos funcionan mejor

El paso final fue mezclar votos humanos y de IA. Los investigadores construyeron multitudes híbridas en las que la mayoría de los miembros eran personas y una proporción menor eran ejecuciones de IA, con ambas partes aportando respuestas de forma independiente antes de combinarlas. Estos grupos aumentados superaron de manera consistente tanto a las multitudes solo humanas como a las solo de IA. En la prueba más nueva e inclusiva, ni los humanos ni la IA por sí solos podían superar aproximadamente el 95 por ciento de precisión, pero los grupos mixtos alcanzaron alrededor del 98 por ciento, y lo hicieron con tamaños de grupo más pequeños. Este patrón sugiere que las personas y las máquinas tienden a cometer distintos tipos de errores, por lo que sus fortalezas se complementan de forma natural.

Figure 2. Los errores de humanos y de IA difieren, por lo que combinar sus conjeturas emocionales produce una decisión final más precisa.
Figure 2. Los errores de humanos y de IA difieren, por lo que combinar sus conjeturas emocionales produce una decisión final más precisa.

Qué significa esto para el uso de IA emocional

El estudio concluye que comparar la IA con un “humano promedio” puede ser engañoso, porque ignora el poder del juicio humano colectivo. Un modelo potente como GPT-5 mini puede superar a la mayoría de los individuos en pruebas de laboratorio estrechas, pero aún así quedarse corto frente a lo que pueden lograr grupos diversos de personas en conjunto, especialmente cuando las máquinas repiten los mismos errores. El enfoque más fiable para tareas como leer emociones en rostros no es dejar que la IA reemplace a las personas, sino emparejar la intuición humana con la consistencia de la máquina en sistemas diseñados cuidadosamente que mantengan a los humanos en el circuito.

Cita: Akben, M., Gude, V. & Ajjan, H. Collective and augmented intelligence outperform artificial intelligence on emotion recognition tests. Sci Rep 16, 14823 (2026). https://doi.org/10.1038/s41598-026-45331-5

Palabras clave: reconocimiento de emociones, inteligencia colectiva, colaboración humano-IA, IA multimodal, cognición social