Clear Sky Science · es
Evaluación de la capacidad de reconocimiento emocional entre etnias en modelos multimodales de gran tamaño mediante la prueba "leer la mente en los ojos"
Por qué importa en la vida cotidiana
Imagínese un programa informático que pueda mirar los ojos de una persona y adivinar lo que siente, a veces con más precisión que la mayoría de las personas. Este estudio pregunta si tales sistemas pueden hacerlo de manera justa para personas de distintos orígenes étnicos. A medida que las herramientas de inteligencia artificial (IA) se incorporan a la salud, la educación y aplicaciones de uso diario, saber si tratan por igual a diferentes grupos es crucial para la confianza, la seguridad y la ética.

Buscar sentimientos en los ojos
Los investigadores se centraron en una prueba psicológica bien conocida llamada «Leer la mente en los ojos». En esta tarea solo se muestra la región ocular de un rostro y el observador debe elegir qué emoción o estado mental expresan los ojos. Hay tres versiones de la prueba, cada una con fotografías de personas blancas, negras o coreanas. A menudo a la gente le resulta más difícil juzgar emociones en rostros de otra etnia, un patrón conocido como el «efecto de otra raza». El estudio preguntó si los sistemas avanzados de IA muestran una debilidad similar o si pueden reconocer las emociones por igual entre estos distintos conjuntos de rostros.
Poner a prueba tres sistemas de IA
El equipo evaluó tres modelos multimodales de gran tamaño populares—sistemas que pueden procesar tanto imágenes como texto. Probaron un modelo basado en GPT-4 más antiguo, un modelo más nuevo basado en GPT-4o y un sistema competidor llamado Claude 3 Opus. Cada modelo completó las tres versiones de la prueba ocular dos veces, de modo que los investigadores pudieran comprobar tanto la precisión como la consistencia a lo largo del tiempo. Los modelos vieron cada imagen de ojos con cuatro respuestas posibles y tuvieron que elegir una, tal como lo haría una persona. Luego, los científicos compararon las puntuaciones de la IA con las de amplios grupos de personas que previamente habían realizado las mismas pruebas.
Qué tan bien les fue a las máquinas
El modelo más nuevo, GPT-4o, destacó. Respondió correctamente en aproximadamente el 83% de los ítems para rostros blancos, 94% para rostros negros y 86% para rostros coreanos. Estas puntuaciones lo situaron aproximadamente entre los percentiles 85 y 94 en comparación con el rendimiento humano, lo que significa que superó a la mayoría de las personas que han hecho estas pruebas. Importante: su éxito fue similar en los tres grupos étnicos, lo que sugiere que no mostró el mismo tipo de sesgo étnico que las personas suelen presentar en estas tareas. El modelo GPT-4 más antiguo rindió mejor que una elección aleatoria pero se aproximó a niveles humanos medios, mientras que Claude 3 Opus se situó cerca del azar, funcionando como alguien que en su mayoría estaba adivinando.

Qué encontró la IA fácil y difícil
Para ir más allá de los totales simples, los autores examinaron qué tipos de emociones los modelos manejaban bien o mal. En general, tendían a reconocer con alta precisión estados internos como estar preocupado, intranquilo o pensativo. En cambio, tuvieron más dificultades con expresiones sociales ricas y positivas que transmiten significado interpersonal —como ser juguetón, amistoso o coqueto. El sistema más nuevo, GPT-4o, redujo estos errores más que los demás, lo que sugiere que cada nueva generación de IA puede estar mejorando en captar señales sociales sutiles que los modelos anteriores pasan por alto.
Qué puede significar esto para las personas
Los hallazgos plantean posibilidades emocionantes y precauciones importantes. Por un lado, un sistema que pueda leer emociones en rostros tan bien o mejor que muchas personas —y hacerlo de manera similar entre grupos étnicos— podría en el futuro ayudar a psicólogos, médicos o docentes ofreciendo una segunda opinión más estable sobre señales sociales. Por otro lado, la propia prueba ocular tiene límites científicos importantes y puede no reflejar la comprensión social en la vida real, que depende del lenguaje corporal, el tono de voz y el contexto. Los autores subrayan que estos resultados no prueban que la IA tenga empatía genuina ni que esté libre de sesgos en otros entornos. En cambio, el trabajo ofrece un punto de referencia temprano: para una tarea estrecha y controlada centrada en la región ocular, al menos una IA moderna parece altamente precisa y relativamente equitativa entre distintos grupos étnicos, pero se necesita mucha más investigación antes de que tales herramientas deban influir en decisiones del mundo real.
Cita: Refoua, E., Elyoseph, Z., Piterman, D. et al. Evaluation of cross-ethnic emotion recognition capabilities in multimodal large language models using the reading the mind in the eyes test. Sci Rep 16, 9975 (2026). https://doi.org/10.1038/s41598-026-39292-y
Palabras clave: reconocimiento de emociones, inteligencia artificial, cognición social, sesgo entre etnias, salud mental