Clear Sky Science · ru
Распознавание мимики с помощью вариационного вывода
Чтение чувств по лицам
Наши лица постоянно передают, что мы чувствуем, но эти сигналы редко бывают простыми. Улыбка может скрывать нервозность, а «нейтральное» выражение — сочетать скуку и раздражение. В этом исследовании представлена POSTER-Var — новая система искусственного интеллекта (ИИ), призванная точнее распознавать такие тонкие, смешанные эмоции, чем современные инструменты, что потенциально улучшит взаимодействие человек–компьютер и мониторинг психического здоровья.
Почему эмоции не просто вкл/выкл
Большинство существующих систем распознавания мимики рассматривают эмоции как раздельные категории: радость, грусть, злость и т. п. На самом деле психология показывает, что выражения — это смеси базовых эмоций, когда разные компоненты проявляются одновременно с разной интенсивностью. Традиционные ИИ-модели обычно принуждают каждое изображение к единой жесткой метке, игнорируя неопределённость и непрерывный, градиентный характер чувств. Это делает их уязвимыми в реальных условиях, где освещение, поза и даже непоследовательные человеческие метки добавляют шум. Авторы утверждают, что будущие системы должны признавать, что одно лицо может указывать на несколько эмоций с разной силой, и компьютеры должны мыслить в терминах вероятностей, а не в духе «да-или-нет».

Позволяя модели принимать неопределённость
Чтобы лучше соответствовать этой запутанной реальности, команда опирается на технику из современного вероятностного моделирования, называемую вариационным выводом. Вместо того чтобы выдавать единственный фиксированный балл для каждой эмоции, POSTER-Var отображает признаки лица в «латентное пространство», где каждая эмоция представлена вероятностным распределением, обычно напоминающим колоколообразную кривую. Во время обучения система берёт выборки из этих изученных распределений, поощряя исследование множества возможных интерпретаций каждого лица. На этапе тестирования же она использует центры этих распределений для стабильных предсказаний. Существенно, что POSTER-Var убирает дополнительные декодирующие и полносвязные слои, применявшиеся в ранних вариационных схемах, рассматривая саму вероятностную репрезентацию как итоговый сигнал решения. Этот упрощённый «Головной классификатор на основе вариационного вывода», или VICH, позволяет модели количественно оценивать неопределённость, оставаясь при этом эффективной и точной.
Рассмотрение лица на нескольких масштабах
Распознавание выражений также требует внимания к разным частям лица и к разным уровням детализации: изгиб губ, форма глаз и общая конфигурация — всё имеет значение. POSTER-Var развивает сильную предварительную систему (POSTER++), улучшая способ объединения этих много масштабных признаков. Она использует несколько механизмов внимания для слияния информации из стандартного визуального бэкбона и детектора лицевых ключевых точек, отслеживающего такие ориентиры, как уголки глаз и края рта. «Встраивание уровня» помечает каждую карту признаков её положением и семантическим уровнем в пирамиде обработки, помогая сети понять, откуда берутся детали. Нелинейные преобразования и улучшенный блок внимания по каналам затем перестраивают эти признаки, усиливая те, что наиболее информативны для распознавания эмоций, и подавляя отвлекающие факторы, такие как фон или особенности, специфичные для личности.

Испытание системы
Исследователи оценили POSTER-Var на трёх широко используемых реальных наборах данных: RAF-DB, AffectNet и FER+. Эти коллекции содержат сотни тысяч лиц, снятых в неконтролируемых условиях, каждое помеченное одной из нескольких базовых эмоций. По всем бенчмаркам POSTER-Var либо сравнивался, либо превосходил текущие передовые методы. Например, он достиг примерно 93% точности на RAF-DB и около 92% на FER+, а также показал небольшое улучшение на версиях AffectNet с 7 и 8 классами. Абляционные эксперименты, в которых убирали отдельные компоненты, показали, что и встраивание уровня, и вариационная голова заметно вносят вклад в качество, при этом вариационный компонент особенно полезен на более сложных, несбалансированных наборах. Визуализации карт внимания продемонстрировали, что POSTER-Var фокусируется на более широких и смысловых областях лица, чем базовая модель, а графики изученных распределений эмоций показали, как он лучше отделяет, например, «грусть» от «нейтральности» в неоднозначных случаях.
Что это значит для практических применений
Проще говоря, POSTER-Var учит машины воспринимать выражения лица не как светофоры, а скорее как прогноз погоды: может быть главное «солнечное» настроение с рассеянными «облачными» нотами, и прогноз должен признавать неопределённость. Моделируя полные распределения эмоций вместо единственного предположения, система становится более устойчива к шумным меткам и тонким, смешанным выражениям. В исследовании делается вывод, что такие вероятностные подходы могут лечь в основу следующего поколения технологий, чувствительных к аффекту, делая виртуальных помощников, социальных роботов и инструменты поведенческих исследований более чуткими к сложной эмоциональной жизни, которую наши лица лишь несовершенно отображают.
Цитирование: Lv, G., Zhang, J. & Tsoi, C. Facial expression recognition via variational inference. Sci Rep 16, 7323 (2026). https://doi.org/10.1038/s41598-026-38734-x
Ключевые слова: распознавание мимики, эмоциональный ИИ, вероятностное моделирование, вариационный вывод, компьютерное зрение