Clear Sky Science · ru

Оценка способности мультимодальных крупных языковых моделей распознавать эмоции у представителей разных этнических групп с помощью теста «Чтение мыслей по глазам»

· Назад к списку

Почему это важно в повседневной жизни

Представьте программу, которая может посмотреть на глаза человека и угадать, что он чувствует — иногда точнее, чем большинство людей. В этом исследовании проверяют, могут ли такие системы поступать честно по отношению к людям из разных этнических групп. По мере того как инструменты искусственного интеллекта (ИИ) входят в сферу здравоохранения, образования и повседневных приложений, важно знать, одинаково ли они обращаются с разными группами людей — это необходимо для доверия, безопасности и этики.

Figure 1
Figure 1.

Ищем чувства в глазах

Исследователи сосредоточились на известном психологическом тесте «Чтение мыслей по глазам». В этом задании показывают только область глаз на лице, и испытуемый должен выбрать, какую эмоцию или психическое состояние выражают глаза. Существует три версии теста, каждая использует фотографии белых, чернокожих или корейских людей. Людям часто труднее распознавать эмоции на лицах представителей другой этнической группы — этот эффект называют «эффектом чужой расы». В исследовании спросили, проявляют ли современные системы ИИ ту же слабость или способны одинаково хорошо распознавать эмоции в разных наборах лиц.

Три системы ИИ проходят проверку

Команда оценила три популярные мультимодальные крупные языковые модели — системы, которые могут обрабатывать и изображения, и текст. Они протестировали более старую модель на базе GPT-4, более новую модель на базе GPT-4o и конкурирующую систему Claude 3 Opus. Каждая модель проходила все три версии теста по два раза, чтобы исследователи могли оценить и точность, и стабильность ответов со временем. Модели видели каждый снимок области глаз с четырьмя возможными ответами и должны были выбрать один — так же, как человек. Затем ученые сравнили результаты ИИ с данными больших групп людей, ранее проходивших те же тесты.

Как справились машины

Особенно отметилась более новая модель GPT-4o. Она правильно ответила примерно в 83% случаев для белых лиц, 94% для чернокожих и 86% для корейских. Эти показатели соответствуют примерно 85–94-му процентилю по сравнению с человеческой производительностью, то есть она показала результат лучше, чем у большинства людей, проходивших эти тесты. Важно, что успех был сопоставимым для всех трех этнических групп, что говорит о том, что модель не демонстрировала того вида этнического уклона, который часто проявляют люди в таких заданиях. Старая модель GPT-4 показала результаты лучше случайного угадывания, но ближе к среднему уровню людей, тогда как Claude 3 Opus оказался примерно на уровне случайного выбора, выступая как тот, кто в основном угадывает.

Figure 2
Figure 2.

Что ИИ давалось легко, а что было сложно

Чтобы выйти за рамки простых сумм баллов, авторы проанализировали, с какими типами эмоций модели справлялись хорошо, а с какими — хуже. Во всех системах лучше распознавались внутренние состояния, такие как обеспокоенность, тревога или сосредоточенность. Напротив, трудностями оказались социально богатые, позитивные выражения, несущие межличностный смысл — например, игривость, дружелюбие или флирт. Новая система GPT-4o снизила число таких ошибок больше, чем другие модели, что указывает на то, что каждое новое поколение ИИ, возможно, лучше улавливает тонкие социальные сигналы, которые пропускают предыдущие модели.

Что это может значить для людей

Результаты открывают как воодушевляющие перспективы, так и важные предостережения. С одной стороны, система, которая умеет считывать эмоции по лицам не хуже или лучше многих людей — и при этом делает это сопоставимо по отношению к разным этническим группам — теоретически могла бы в будущем помогать психологам, врачам или учителям, предоставляя более стабильное второе мнение о социальных сигналах. С другой стороны, сам тест по глазам имеет серьезные научные ограничения и может не отражать понимание социальных ситуаций в реальной жизни, которое зависит от языка тела, интонации и контекста. Авторы подчеркивают, что эти результаты не доказывают наличие у ИИ подлинной эмпатии и не означают отсутствия предвзятости в других условиях. Скорее, работа дает ранний ориентир: для узкой, контролируемой задачи, сфокусированной на области глаз, по крайней мере одна современная модель ИИ выглядит высокоточнoй и относительно беспристрастной в отношении разных этнических групп, но потребуется гораздо больше исследований, прежде чем такие инструменты будут влиять на решения в реальном мире.

Цитирование: Refoua, E., Elyoseph, Z., Piterman, D. et al. Evaluation of cross-ethnic emotion recognition capabilities in multimodal large language models using the reading the mind in the eyes test. Sci Rep 16, 9975 (2026). https://doi.org/10.1038/s41598-026-39292-y

Ключевые слова: распознавание эмоций, искусственный интеллект, социальное познание, межэтнический уклон, психическое здоровье