Clear Sky Science · es

Un conjunto de datos 3D facial con topología estandarizada y diversidad de emociones y unidades de acción para asiáticos del este

2026-03-24 · Volver al índice

Por qué importan los rostros digitales

Desde las videollamadas hasta la realidad virtual, nuestras vidas están llenas de rostros digitales. Sin embargo, muchos de los sistemas informáticos detrás de esos rostros se entrenan con datos limitados, a menudo centrados en poblaciones occidentales y en un rango estrecho de expresiones. Este artículo presenta AST-Face, un nuevo conjunto de datos 3D centrado en jóvenes adultos de Asia Oriental que pretende ofrecer a los investigadores mejores bloques de construcción para animación, estudio de emociones e interacción humano–ordenador.

Figure 1. Muchos rostros 3D de Asia Oriental se unifican en una estructura común para que los ordenadores puedan comparar expresiones de forma justa.

Qué contiene la nueva colección de rostros

El conjunto de datos AST-Face incluye escaneos 3D detallados de 98 participantes de Asia Oriental con edades entre 18 y 30 años. Para cada persona, el equipo capturó un rostro en posición neutral, seis emociones comunes (felicidad, ira, tristeza, sorpresa, miedo y asco) y nueve movimientos faciales específicos basados en la musculatura. Estos movimientos siguen un sistema conocido que descompone las expresiones en pequeñas unidades de acción, como elevar las cejas internas o tirar de las comisuras de la boca. Un subconjunto de voluntarios también permitió fotografías en color sincronizadas desde tres ángulos de cámara, creando un recurso más rico para estudios que combinan forma 3D con imágenes convencionales.

Cómo se capturaron y limpiaron los rostros

Para que los datos fueran fiables y comparables, los investigadores construyeron una configuración de captura cuidadosamente controlada. Un escáner 3D de alta precisión registró detalles finos de cada rostro mientras tres cámaras de color filmaban desde la izquierda, el centro y la derecha. Una iluminación ajustable redujo sombras y reflejos, y un dispositivo de posicionamiento ayudó a los participantes a mantener una pose estable. Todos siguieron el mismo guion de grabación: primero una cara neutral relajada, luego las seis emociones y finalmente las nueve unidades de acción, cada una guiada por personal entrenado. Después, los escaneos crudos se limpiaron recortando el fondo y las áreas del cuello, alineando la pose de la cabeza, corrigiendo propiedades superficiales y extrayendo 84 puntos de referencia estándar en cada rostro.

Figure 2. Un rostro 3D aproximado se refina gradualmente hasta una malla compartida y suave que conserva detalles de la expresión mientras iguala la estructura.

Hacer que cada rostro sea comparable

Un desafío central en la investigación de rostros 3D es que los escaneos crudos no comparten la misma estructura digital. Pueden diferir en cuántos puntos contienen y en cómo se conectan esos puntos, lo que dificulta comparar la sonrisa de una persona con la de otra. AST-Face aborda esto haciendo pasar cada escaneo por un proceso de alineación en dos pasos. Primero, se ajusta un modelo facial flexible para capturar movimientos grandes como bocas abiertas y cejas levantadas. Luego, un algoritmo avanzado de emparejamiento deforma suavemente una malla plantilla compartida para que todos los rostros finales tengan idéntico número de puntos y conectividad. Esta estructura unificada permite a los investigadores comparar rostros punto por punto entre personas y expresiones sin diseñar su propio y complejo flujo de preprocesamiento.

Para qué pueden usarse los datos

El conjunto de datos final ofrece varias capas de información: mallas 3D estandarizadas, puntos de referencia, mapas detallados de cómo cada expresión difiere respecto al rostro neutral y etiquetas verificadas para cada emoción y unidad de acción. Los archivos disponibles públicamente excluyen cualquier textura identificable, mientras que los escaneos crudos e imágenes en color están bajo un acuerdo de uso de datos para proteger la privacidad de los participantes. Con esta estructura, AST-Face puede apoyar una amplia gama de trabajos, desde animación facial más natural impulsada por controles similares a los musculares, hasta modelos de aprendizaje automático que estudien cómo varían las expresiones entre individuos, y sistemas multimodales que vinculen forma 3D e imágenes 2D.

Qué significa esto para los futuros rostros digitales

En términos sencillos, AST-Face ofrece a los investigadores un conjunto de rostros 3D de Asia Oriental de alta calidad y bien organizado que todos hablan el mismo lenguaje digital. Al combinar expresiones diversas, etiquetas musculares verificadas y una estructura de malla compartida, el conjunto de datos facilita la creación y prueba de algoritmos que necesitan movimientos faciales consistentes y realistas. Aunque se centra en un grupo de edad específico y en expresiones posadas bajo iluminación controlada, ayuda a reducir las brechas demográficas en los recursos existentes y establece una base más clara para rostros digitales más inclusivos y precisos en el futuro.

Cita: Zhao, Y., Gong, G., Li, Y. et al. A Topology Standardized 3D Facial Dataset with Emotion and Action Unit Diversity for East Asians. Sci Data 13, 735 (2026). https://doi.org/10.1038/s41597-026-07098-2

Palabras clave: conjunto de datos faciales 3D, expresión facial, rostros de Asia Oriental, unidades de acción, estandarización de topología