Clear Sky Science · ru

Стандартизованный по топологии 3D набор лиц с разнообразием эмоций и единиц действий для восточноазиатов

· Назад к списку

Почему цифровые лица важны

От видеозвонков до виртуальной реальности — наша жизнь полна цифровых лиц. Однако многие системы, стоящие за этими лицами, обучены на ограниченных данных, часто ориентированных на западные популяции и узкий набор выражений. В этой статье представлен AST-Face, новый 3D набор лиц, сосредоточенный на молодых взрослых восточноазиатах, который призван дать исследователям более надежные строительные блоки для анимации, исследований эмоций и взаимодействия человек–компьютер.

Figure 1. Множество 3D-лиц восточноазиатов приведено к общей структуре, чтобы компьютеры могли честно сравнивать выражения.
Figure 1. Множество 3D-лиц восточноазиатов приведено к общей структуре, чтобы компьютеры могли честно сравнивать выражения.

Что содержит новая коллекция лиц

Набор данных AST-Face включает детализированные 3D-сканы 98 участников восточноазиатского происхождения в возрасте от 18 до 30 лет. Для каждого человека команда зафиксировала нейтральное лицо, шесть распространенных эмоций (радость, гнев, печаль, удивление, страх и отвращение) и девять специфических мышечных движений лица. Эти движения следуют общепринятой системе, которая разбивает выражения на мелкие единицы действий, такие как поднятие внутренних бровей или оттягивание уголков рта. Подмножество добровольцев также разрешило синхронизированные цветные фотографии с трех ракурсов, что создало более богатый ресурс для исследований, объединяющих 3D-форму и обычные изображения.

Как лица захватывали и чистили

Чтобы сделать данные надежными и сопоставимыми, исследователи построили тщательно контролируемую установку для съёмки. Высокоточный 3D-сканер записывал тонкие детали каждого лица, в то время как три цветные камеры снимали слева, по центру и справа. Регулируемое освещение снижало тени и блики, а позиционирующее устройство помогало участникам удерживать стабильную позу. Все следовали единому скрипту записи: сначала расслабленное нейтральное лицо, затем шесть эмоций и, наконец, девять единиц действий, каждую из которых сопровождали обученные сотрудники. После этого сырые сканы очищались: удалялись фон и область шеи, выравнивалась поза головы, корректировались свойства поверхности и извлекались 84 стандартные опорные точки на каждом лице.

Figure 2. Грубая 3D-модель лица постепенно уточняется до плавной общей сетки, которая сохраняет детали выражений при выравнивании структуры.
Figure 2. Грубая 3D-модель лица постепенно уточняется до плавной общей сетки, которая сохраняет детали выражений при выравнивании структуры.

Как сделать все лица сопоставимыми

Ключевая проблема в исследованиях 3D-лиц заключается в том, что сырые сканы не имеют общей цифровой структуры. Они могут различаться по количеству точек и способу их соединения, что затрудняет сравнение, например, улыбок разных людей. AST-Face решает эту проблему посредством двухэтапного процесса выравнивания каждого скана. Сначала подгоняется гибкая модель лица, чтобы захватить крупные движения, такие как открытый рот и поднятые брови. Затем продвинутый алгоритм соответствия аккуратно деформирует общую шаблонную сетку так, чтобы все итоговые модели имели одинаковое число точек и одинаковую связность. Такая унифицированная структура позволяет исследователям сравнивать лица по точкам между людьми и выражениями без необходимости разрабатывать собственный сложный предобрабатывающий конвейер.

Для чего можно использовать эти данные

Готовый набор данных предлагает несколько уровней информации: стандартизованные 3D-сетки, опорные точки, подробные карты различий каждого выражения относительно нейтрального лица и проверенные метки для каждой эмоции и единицы действия. Публично доступные файлы не содержат узнаваемых текстур, тогда как сырые сканы и цветные изображения доступны при подписании соглашения об использовании данных для защиты конфиденциальности участников. Благодаря такой структуре AST-Face может поддерживать широкий круг задач — от более естественной анимации лиц с управлением, имитирующим мышечную деятельность, до моделей машинного обучения, изучающих вариативность выражений между людьми, и кросс-модальных систем, связывающих 3D-форму и 2D-изображения.

Что это значит для будущих цифровых лиц

Проще говоря, AST-Face предоставляет исследователям высококачественный, хорошо организованный набор 3D-лиц восточноазиатской выборки, говорящих на одном цифровом «языке». Комбинируя разнообразие выражений, тщательно проверенные мышечно-обусловленные метки и общую структуру сетки, набор облегчает создание и тестирование алгоритмов, которым нужна согласованная и реалистичная мимика. Хотя он фокусируется на определенной возрастной группе и позированных выражениях при контролируемом освещении, этот ресурс помогает сократить демографические пробелы в существующих наборах и закладывает более ясную основу для более инклюзивных и точных цифровых лиц в будущем.

Цитирование: Zhao, Y., Gong, G., Li, Y. et al. A Topology Standardized 3D Facial Dataset with Emotion and Action Unit Diversity for East Asians. Sci Data 13, 735 (2026). https://doi.org/10.1038/s41597-026-07098-2

Ключевые слова: 3D набор лиц, выражение лица, восточноазиатские лица, единицы действий, стандартизация топологии