Clear Sky Science · pt

Um Conjunto de Dados 3D Facial com Topologia Padronizada e Diversidade de Emoções e Unidades de Ação para Asiáticos Orientais

· Voltar ao índice

Por que rostos digitais importam

De chamadas de vídeo a realidade virtual, nossas vidas estão cheias de rostos digitais. Ainda assim, muitos dos sistemas computacionais por trás desses rostos são treinados com dados limitados, frequentemente focados em populações ocidentais e em uma gama estreita de expressões. Este artigo apresenta o AST-Face, um novo conjunto de dados 3D facial centrado em jovens adultos asiáticos orientais que busca oferecer aos pesquisadores blocos de construção melhores para animação, pesquisa sobre emoções e interação humano–computador.

Figure 1. Muitas faces 3D de asiáticos orientais são unificadas em uma estrutura comum para que computadores possam comparar expressões de forma justa.
Figure 1. Muitas faces 3D de asiáticos orientais são unificadas em uma estrutura comum para que computadores possam comparar expressões de forma justa.

O que a nova coleção de faces contém

O conjunto de dados AST-Face inclui varreduras 3D detalhadas de 98 participantes asiáticos orientais entre 18 e 30 anos. Para cada pessoa, a equipe capturou uma face neutra, seis emoções comuns (felicidade, raiva, tristeza, surpresa, medo e nojo) e nove movimentos faciais específicos baseados em músculos. Esses movimentos seguem um sistema conhecido que divide expressões em pequenas unidades de ação, como levantar a sobrancelha interna ou puxar os cantos da boca. Um subconjunto de voluntários também permitiu fotos coloridas sincronizadas de três ângulos de câmera, criando um recurso mais rico para estudos que combinam forma 3D com imagens regulares.

Como as faces foram capturadas e limpas

Para tornar os dados confiáveis e comparáveis, os pesquisadores montaram um sistema de captura cuidadosamente controlado. Um scanner 3D de alta precisão registrou detalhes finos de cada face enquanto três câmeras coloridas filmavam da esquerda, do centro e da direita. Iluminação ajustável reduziu sombras e reflexos, e um dispositivo de posicionamento ajudou os participantes a manter uma pose estável. Todos seguiram o mesmo roteiro de gravação: primeiro uma face neutra relaxada, depois as seis emoções e, por fim, as nove unidades de ação, cada uma guiada por equipe treinada. Posteriormente, as varreduras brutas foram limpas removendo-se o fundo e áreas do pescoço, alinhando a pose da cabeça, corrigindo propriedades de superfície e extraindo 84 pontos de referência padrão em cada face.

Figure 2. Uma face 3D bruta é gradualmente refinada em uma malha compartilhada e suave que preserva detalhes de expressão enquanto iguala a estrutura.
Figure 2. Uma face 3D bruta é gradualmente refinada em uma malha compartilhada e suave que preserva detalhes de expressão enquanto iguala a estrutura.

Tornando cada face comparável

Um desafio central na pesquisa de faces 3D é que as varreduras brutas não compartilham a mesma estrutura digital. Elas podem diferir em quantos pontos contêm e em como esses pontos estão conectados, o que dificulta comparar o sorriso de uma pessoa com o de outra. O AST-Face resolve isso processando cada varredura por um procedimento de alinhamento em duas etapas. Primeiro, um modelo facial flexível é ajustado para capturar grandes movimentos, como bocas abertas e sobrancelhas levantadas. Em seguida, um algoritmo avançado de correspondência deforma suavemente uma malha modelo compartilhada para que todas as faces finais tenham contagens de pontos e conectividade idênticas. Essa estrutura unificada permite que pesquisadores comparem faces ponto a ponto entre pessoas e expressões sem precisar desenvolver seu próprio pipeline de pré-processamento complexo.

Para que os dados podem ser usados

O conjunto de dados final oferece várias camadas de informação: malhas 3D padronizadas, pontos de referência, mapas detalhados de como cada expressão difere da face neutra e rótulos verificados para cada emoção e unidade de ação. Arquivos disponíveis ao público excluem quaisquer texturas identificáveis, enquanto varreduras brutas e imagens coloridas ficam protegidas por um acordo de uso de dados para resguardar a privacidade dos participantes. Com essa estrutura, o AST-Face pode apoiar uma ampla gama de trabalhos, desde animação facial mais natural dirigida por controles semelhantes a músculos, até modelos de aprendizado de máquina que estudam como expressões variam entre indivíduos, bem como sistemas multimodais que ligam forma 3D e imagens 2D.

O que isso significa para rostos digitais futuros

Em termos simples, o AST-Face oferece aos pesquisadores um conjunto de faces 3D asiáticas orientais de alta qualidade e bem organizado que todas falam a mesma linguagem digital. Ao combinar expressões diversas, rótulos musculares cuidadosamente verificados e uma estrutura de malha compartilhada, o conjunto de dados facilita construir e testar algoritmos que necessitam de movimentos faciais consistentes e realistas. Embora se concentre em um grupo etário específico e em expressões posadas sob iluminação controlada, ele ajuda a reduzir lacunas demográficas em recursos existentes e estabelece uma base mais clara para rostos digitais mais inclusivos e precisos no futuro.

Citação: Zhao, Y., Gong, G., Li, Y. et al. A Topology Standardized 3D Facial Dataset with Emotion and Action Unit Diversity for East Asians. Sci Data 13, 735 (2026). https://doi.org/10.1038/s41597-026-07098-2

Palavras-chave: conjunto de dados facial 3D, expressão facial, faces asiáticas orientais, unidades de ação, padronização de topologia