Clear Sky Science · ru
SiaCon-DetNet с HySHO: передовая трансформерная глубокая нейронная платформа для распознавания эмоций по лицу
Почему важно научить компьютеры «читать» эмоции
От видеозвонков до виртуальных наставников и медицинских приложений — мы всё чаще взаимодействуем с машинами через экраны. Однако многие такие системы по-прежнему эмоционально «глухи»: они не видят, запутаны ли мы, испытываем стресс или рады. В этой статье представлена новая платформа искусственного интеллекта, которая распознаёт мимические выражения точнее и эффективнее, чем ранние методы, с целью сделать цифровые инструменты более понимающими, справедливыми и полезными в повседневной жизни.
Как лицо даёт машине окно в эмоции
Наши лица постоянно передают информацию о том, что мы чувствуем, зачастую более честно, чем слова. Улыбки, хмурение, расширенные глаза и едва заметные мышечные подёргивания помогают людям ориентироваться в разговоре, выстраивать доверие и замечать беду. Исследователи из психологии, нейронауки и информатики давно пытаются научить компьютеры считывать эти признаки — область, известная как распознавание эмоций по лицу. Такая технология уже применяется в образовательных платформах для отслеживания вовлечённости студентов, в играх, подстраивающих механику под настроение игрока, в медицинских инструментах для мониторинга боли или депрессии и в системах безопасности для обнаружения признаков возбуждения. Но реальные условия сложны: меняется освещение, лица частично закрыты, а выражения варьируются у разных людей и в разных культурах, что делает надёжное распознавание эмоций серьёзной задачей.

Почему старые системы эмоций не справлялись
Ранние компьютерные системы опирались на вручную разработанные правила, измеряя простые признаки вроде морщин, контуров или формы рта и глаз. Они плохо справлялись с поворотами головы, изменениями освещения и индивидуальными отличиями. Глубокое обучение привнесло прогресс, позволяя нейросетям автоматически выявлять полезные шаблоны на изображениях лиц, но распространённые архитектуры всё ещё имели уязвимости. Сверточные сети отлично выявляют локальные детали, но им трудно связывать удалённые части лица, например синхронные движения глаз и рта при смешанном выражении. Новые трансформерные модели захватывают такие дальние зависимости, но они могут быть тяжёлыми, требовательными к данным и не всегда чувствительными к очень тонким, низкоуровневым признакам. Многие существующие системы также требуют тщательной ручной настройки сотен внутренних параметров и часто плохо обобщают вне данных, на которых были обучены.
Двуглазый и внимательный подход
Авторы предлагают SiaCon-DetNet — гибридную сеть, объединяющую сильные стороны нескольких идей. Во-первых, в ней используется сиамская структура — две идентичные ветви обработки, смотрящие на пару соответствующих изображений лица, чтобы выучить, что действительно отличает одну эмоцию от другой. Такая «близнецовая» конструкция помогает модели замечать крошечные различия между, например, страхом и удивлением, которые могут задействовать схожие мышцы. В каждой ветви сверточные слои захватывают тонкую текстуру и формы, такие как изгибы бровей или напряжение рта. Поверх этого модуль на базе трансформера действует как «спот» внимания, изучая, как удалённые области лица соотносятся друг с другом, и фокусируясь на наиболее информативных зонах. В совокупности эти компоненты позволяют системе строить богатую, учитывающую контекст картину выражения, даже когда лица частично скрыты или освещение неравномерно.
Вдохновлённая природой настройка для более быстрого и точного обучения
Создание мощной модели — лишь половина дела; её также нужно настроить так, чтобы она училась быстро и без переобучения. Для этого в статье представлен HySHO — «бионическая» схема оптимизации, сочетающая стратегии, смоделированные по поведению хищной птицы (ястреб-перепелятник) и пустынной кошки. Одна часть исследует широкий набор настроек, таких как скорости обучения и размеры фильтров, предотвращая попадание системы в плохие решения. Другая часть выполняет тонкие корректировки в перспективных областях, ускоряя сходимость. Динамическая настройка связана с тем, насколько выражения варьируются в конкретном наборе данных, позволяя модели адаптироваться при встрече с тонкими, смешанными или шумными эмоциями. В результате обучение становится быстрее и устойчивее, что поддерживает приложения в реальном времени или близкие к нему.

Испытание системы
Чтобы оценить свою платформу, исследователи протестировали её на трёх широко используемых наборах данных по эмоциям, различающихся по объёму и сложности. Эти коллекции содержат постановочные и более естественные выражения по нескольким базовым эмоциям: гнев, страх, радость, печаль, отвращение, удивление и нейтральность. Система показала около 99 процентов точности на наиболее известном бенчмарке и сохранила не менее впечатляющие показатели точности, полноты и F1 почти по всем категориям эмоций. Важно, что это было достигнуто при более быстрой тренировке по сравнению со многими популярными моделями глубокого обучения, основанными на известных архитектурах для изображений. Анализ корреляций между эмоциями в наборах данных показал, что модель справлялась со сложными парами — например, гнев против отвращения или страх против печали — без значительных падений качества, что указывает на способность улавливать тонкую структуру выражений, а не запоминать очевидные случаи.
Что это значит для повседневных технологий
Проще говоря, исследование демонстрирует, что ИИ можно спроектировать так, чтобы он «смотрел» на лица более по‑человечески — сравнивал тонкие различия, понимал контекст по всему лицу и динамически корректировал стратегию обучения. Предложенная связка SiaCon-DetNet с HySHO обеспечивает чрезвычайно высокую точность при относительной лёгкости и скорости обучения, делая её перспективным кандидатом для будущих инструментов в скрининге психического здоровья, интерактивных обучающих системах, службах поддержки клиентов и вспомогательных технологиях для людей с трудностями общения. Хотя остаются важные вопросы приватности, согласия и справедливости, эта работа приближает системы, учитывающие эмоции, к тому, чтобы надёжно интерпретировать наши чувства и реагировать с чуткостью, а не наугад.
Цитирование: M, S., M, U., K, T. et al. SiaCon-DetNet with HySHO: a cutting-edge transformer-based deep learning framework for emotion-aware facial recognition. Sci Rep 16, 14131 (2026). https://doi.org/10.1038/s41598-026-41890-9
Ключевые слова: распознавание эмоций по лицу, глубокое обучение, модели трансформеров, взаимодействие человек–компьютер, аффективные вычисления