Clear Sky Science · pt

Benchmarking de núcleos quânticos e modelos visuais modernos para reconhecimento de expressões faciais compostas

· Voltar ao índice

Por que ler rostos é mais difícil do que parece

Muitas tecnologias hoje tentam inferir nossas emoções a partir de uma simples imagem de webcam, desde ferramentas de saúde mental e monitores de segurança para motoristas até robôs sociais e testadores de jogos. Mas expressões do mundo real raramente são apenas “feliz” ou “triste.” Frequentemente são misturas — medo misturado com surpresa, tristeza tingida de nojo — que até pessoas às vezes interpretam mal. Este estudo faz uma pergunta oportuna: quais sistemas computacionais modernos, incluindo métodos emergentes baseados em computação quântica, alcançam o melhor equilíbrio entre precisão e velocidade ao decodificar essas emoções sutis e mistas em rostos do mundo real?

Figure 1
Figure 1.

Emoções misturadas na vida cotidiana

Em vez de focar nas emoções básicas de livro didático, os autores abordam expressões compostas como “assustado-surpreso” ou “triste-nojento.” Esses estados nuançados ocorrem com frequência em cenários naturais como clínicas, carros ou robôs sociais interagindo com humanos. A equipe emprega um conjunto de imagens bem conhecido chamado RAF-DB, contendo milhares de rostos capturados “in the wild” sob variadas condições de iluminação, poses e demografia. Eles restringem a análise a 11 categorias compostas e impõem divisões de dados e pré-processamento idênticos para todos os métodos, de modo que quaisquer diferenças de desempenho realmente provenham dos modelos, e não de condições de treinamento escolhidas a dedo.

Sete maneiras de ensinar computadores a ler rostos

O estudo compara sete pipelines que representam três gerações de tecnologia. Primeiro vêm os híbridos clássicos, que usam redes convolucionais estabelecidas (ResNet50 e VGGFace) apenas como extratores de características, repassando depois a decisão final para um classificador mais simples baseado em margem chamado SVM. Em segundo lugar estão dois modelos modernos e populares: EfficientNetV2-S, uma rede convolucional enxuta ajustada para eficiência, e ViT-B/16, um transformador de visão que analisa imagens como um conjunto de patches e usa atenção global para conectar regiões faciais distantes. Em terceiro lugar estão três híbridos quântico–clássicos. Neles, um codificador visual padrão produz características numéricas compactas que são então processadas por componentes inspirados em quântica: uma máquina de vetores de suporte quântica (QSVM), um método quântico de k-vizinhos mais próximos (QKNN) ou uma rede convolucional quântica (QCNN).

Velocidade, precisão e os trade-offs entre elas

Em vez de perseguir um único número de precisão de destaque, os autores medem cuidadosamente o tempo de extração de características, o tempo de treinamento e o tempo de classificação por imagem, todos no mesmo hardware. ViT-B/16 sai na frente em precisão, classificando corretamente cerca de 63% das expressões compostas enquanto mantém a extração de características surpreendentemente rápida. EfficientNetV2-S fica perto, com cerca de 61% de precisão, mas precisa de muito mais tempo para extrair características. Entre os híbridos quânticos, a QSVM tem o melhor desempenho, alcançando aproximadamente 55% de precisão com apenas cerca de um minuto de tempo de extração de características, tornando-a atraente quando os orçamentos de computação são limitados. QKNN e QCNN são ainda mais econômicos em tempo — especialmente a QCNN — mas sacrificam precisão, pairando na faixa média de 30%. Os híbridos clássicos ficam no meio, úteis como linhas de base transparentes, mas geralmente atrás das opções modernas e aprimoradas por técnicas quânticas.

Onde as máquinas ainda se confundem

Um olhar mais atento aos erros mostra que todos os sistemas têm dificuldades de modo semelhante. As confusões tendem a se agrupar em duas famílias: medo versus surpresa, e tristeza versus nojo (às vezes misturado com raiva). Essas categorias compartilham padrões musculares faciais semelhantes — olhos arregalados e sobrancelhas levantadas para medo e surpresa, ou cantos da boca para baixo e rugas no nariz para tristeza e nojo — de modo que suas assinaturas visuais se sobrepõem. Nem mesmo a atenção global do ViT e os kernels quânticos mais expressivos da QSVM conseguem separar completamente essas expressões parecidas. Os autores argumentam que modelos futuros devem prestar atenção direcionada a regiões faciais específicas vinculadas a unidades de ação (como cantos dos olhos, sobrancelhas e área ao redor do nariz), ajustar seus objetivos de treinamento para aumentar margens entre classes vizinhas e usar estratégias de aumento de dados balanceadas para evitar overfitting às composições mais comuns.

Figure 2
Figure 2.

O que isso significa para sistemas sensíveis às emoções no mundo real

Os autores não afirmam que métodos quânticos já superaram o aprendizado profundo clássico. Em vez disso, eles fornecem um mapa cuidadoso do panorama atual. Se a precisão absoluta for primordial e os recursos computacionais forem abundantes, os transformadores de visão ainda lideram. Quando desenvolvedores precisam observar orçamentos de energia ou latência — por exemplo, em dispositivos de borda ou servidores de baixa latência — híbridos quânticos como QSVM e QKNN oferecem um meio-termo promissor, reduzindo o tempo de extração de características e de inferência enquanto mantêm precisão respeitável. Pipelines clássicos de CNN mais SVM continuam úteis como referências. Ao combinar contabilização rigorosa de computação, análise detalhada de erros e testes estatísticos formais, este trabalho mostra que ler emoções humanas complexas é tanto sobre alocação inteligente de recursos e justiça quanto sobre precisão bruta — e que ferramentas inspiradas em quântica podem em breve se tornar parceiras práticas nesse esforço.

Citação: Florestiyanto, M.Y., Surjono, H.D. & Jati, H. Benchmarking quantum kernels and modern vision models for compound facial expression recognition. Sci Rep 16, 11261 (2026). https://doi.org/10.1038/s41598-026-41514-2

Palavras-chave: reconhecimento de expressões faciais, emoções compostas, transformadores de visão, aprendizado de máquina quântico, modelos de IA eficientes