Clear Sky Science · ru

Сравнение квантовых ядер и современных моделей зрения для распознавания сложных выражений лица

· Назад к списку

Почему чтение лиц сложнее, чем кажется

Многие технологии сегодня пытаются считывать наши эмоции по простому изображению с веб‑камеры — от инструментов психического здоровья и систем мониторинга водителя до социальных роботов и тестировщиков игр. Но в реальной жизни выражения редко бывают просто «радостными» или «грустными». Чаще они смешанные — страх с удивлением, грусть с отвращением — которые даже люди иногда неправильно интерпретируют. В этом исследовании ставится своевременный вопрос: какие современные компьютерные системы, в том числе появляющиеся методы на квантовой основе, лучше всего балансируют между точностью и скоростью при декодировании этих тонких, смешанных эмоций на реальных лицах?

Figure 1
Figure 1.

Смешанные эмоции в повседневной жизни

Вместо того чтобы фокусироваться на учебных базовых эмоциях, авторы рассматривают сложные выражения, такие как «испуганно‑удивлённый» или «грустно‑отвращённый». Эти нюансированные состояния часто встречаются в естественных условиях — в клиниках, автомобилях или при взаимодействии социальных роботов с людьми. Команда использует известную коллекцию изображений RAF‑DB, содержащую тысячи лиц, снятых «в полевых условиях» при разном освещении, позах и демографии. Они ограничивают внимание 11 категориями сложных выражений и обеспечивают идентичные разбиения данных и предобработку для всех методов, чтобы любые различия в результатах действительно исходили от моделей, а не от выбранных условий обучения.

Семь подходов, чтобы научить компьютеры читать лица

В исследовании сравниваются семь конвейеров, представляющих три поколения технологий. Во‑первых — классические гибриды, которые используют проверенные свёрточные сети (ResNet50 и VGGFace) только в качестве экстракторов признаков, а окончательное решение передают более простому маргинальному классификатору — SVM. Во‑вторых — две популярные современные глубокие модели: EfficientNetV2‑S, оптимизированная свёрточная сеть, настроенная на эффективность, и ViT‑B/16, визуальный трансформер, который анализирует изображение как набор патчей и использует глобальное внимание для связи отдалённых областей лица. В‑третьих — три квантово‑классических гибрида. В них стандартный визуальный кодировщик создаёт компактные числовые признаки, которые затем обрабатываются квантоподобными компонентами: квантовым SVM (QSVM), квантовым k‑ближайших соседей (QKNN) или квантовой свёрточной сетью (QCNN).

Скорость, точность и компромиссы между ними

Вместо погони за единственным числом точности авторы тщательно измеряют время извлечения признаков, время обучения и время классификации на изображение, всё на одном и том же оборудовании. ViT‑B/16 оказывается лидером по точности, корректно классифицируя около 63% сложных выражений, при этом время извлечения признаков остаётся удивительно низким. EfficientNetV2‑S уступает немного — около 61% точности, но требует значительно больше времени на извлечение признаков. Среди квантовых гибридов лучше всех показал себя QSVM, достигая примерно 55% точности при всего около минуты на извлечение признаков, что делает его привлекательным при ограниченных вычислительных ресурсах. QKNN и QCNN ещё экономнее по времени — особенно QCNN — но в ущерб точности, находясь в районе середины 30% по точности. Классические гибриды занимают промежуточное положение, служа прозрачными базовыми вариантами, но в целом отставая от современных и квантово‑усиленных решений.

Где машины всё ещё путаются

Более детальный анализ ошибок показывает, что все системы испытывают схожие трудности. Ошибки, как правило, группируются в двух семействах: страх против удивления и грусть против отвращения (иногда смешанного с гневом). Эти категории разделяют похожие паттерны мышечной активности лица — широко раскрытые глаза и поднятые брови для страха и удивления, или опущенные уголки рта и складки на носу для грусти и отвращения — поэтому их визуальные признаки перекрываются. Даже глобальное внимание ViT и более выразительные квантовые ядра QSVM не в состоянии полностью разделить эти похожие выражения. Авторы предлагают, чтобы будущие модели уделяли целенаправленное внимание конкретным областям лица, связанным с единицами действия (например, уголки глаз, брови и область вокруг носа), корректировали цели обучения для увеличения зазоров между соседними классами и использовали сбалансированные стратегии аугментации данных, чтобы избежать переобучения на самых распространённых комбинациях.

Figure 2
Figure 2.

Что это значит для систем, учитывающих эмоции в реальном мире

Авторы не утверждают, что квантовые методы уже превзошли классическое глубокое обучение. Вместо этого они дают тщательную карту текущего ландшафта. Если абсолютная точность имеет первостепенное значение и вычислительные ресурсы изобилуют, лидируют визуальные трансформеры. Когда разработчикам нужно следить за энергопотреблением или задержками — например, на устройствах на периферии или на серверах с низкой латентностью — квантовые гибриды, такие как QSVM и QKNN, предлагают многообещающий компромисс, сокращая время извлечения признаков и вывода при сохранении достойной точности. Классические конвейеры CNN‑плюс‑SVM остаются полезной меркой. Объединяя строгий учёт вычислений, детальный анализ ошибок и формальные статистические тесты, эта работа показывает, что чтение сложных человеческих эмоций — это не только вопрос чистой точности, но и умного распределения ресурсов и справедливости, и что квантоподобные инструменты могут вскоре стать практичными партнёрами в этом деле.

Цитирование: Florestiyanto, M.Y., Surjono, H.D. & Jati, H. Benchmarking quantum kernels and modern vision models for compound facial expression recognition. Sci Rep 16, 11261 (2026). https://doi.org/10.1038/s41598-026-41514-2

Ключевые слова: распознавание выражений лица, сложные эмоции, визуальные трансформеры, квантовое машинное обучение, эффективные модели ИИ