Clear Sky Science · pl

Standaryzowany topologicznie 3D zbiór twarzy z różnorodnością emocji i jednostek akcji dla Azjatów Wschodnich

2026-03-24 · Powrót do spisu

Dlaczego cyfrowe twarze mają znaczenie

Od rozmów wideo po wirtualną rzeczywistość — nasze życie wypełniają cyfrowe twarze. Jednak wiele systemów komputerowych stojących za tymi twarzami trenuje się na ograniczonych danych, często skoncentrowanych na populacjach zachodnich i wąskim spektrum wyrażeń. W artykule przedstawiono AST-Face, nowy zbiór twarzy 3D skupiony na młodych dorosłych Azjatach Wschodnich, który ma dostarczyć badaczom lepszych narzędzi do animacji, badań nad emocjami i interakcji człowiek–komputer.

Figure 1. Wiele wschodnioazjatyckich twarzy 3D zostało zunifikowanych do wspólnej struktury, aby komputery mogły sprawiedliwie porównywać wyrazy twarzy.

Co zawiera nowy zbiór twarzy

Zbiór AST-Face obejmuje szczegółowe skany 3D od 98 uczestników pochodzenia wschodnioazjatyckiego w wieku od 18 do 30 lat. Dla każdej osoby zespół zarejestrował twarz neutralną, sześć powszechnych emocji (radość, złość, smutek, zaskoczenie, strach i wstręt) oraz dziewięć specyficznych ruchów mięśni twarzy. Ruchy te odpowiadają dobrze znanemu systemowi rozkładającemu wyrazy na małe jednostki akcji, takie jak unoszenie wewnętrznych brwi czy cofanie kącików ust. Część wolontariuszy zgodziła się również na zsynchronizowane fotografie kolorowe z trzech kątów kamery, tworząc bogatsze źródło danych dla badań łączących kształt 3D z obrazami 2D.

Jak twarze zostały zarejestrowane i oczyszczone

Aby dane były wiarygodne i porównywalne, badacze zbudowali starannie kontrolowane stanowisko rejestracyjne. Wysokoprecyzyjny skaner 3D utrwalał drobne detale każdej twarzy, podczas gdy trzy kamery kolorowe filmowały z lewej, środka i prawej. Regulowane oświetlenie zmniejszało cienie i odblaski, a urządzenie do pozycjonowania pomagało uczestnikom utrzymać stabilną pozę. Wszyscy realizowali ten sam scenariusz nagrań: najpierw rozluźniona twarz neutralna, potem sześć emocji, a na końcu dziewięć jednostek akcji, każda prowadzona przez przeszkolony personel. Następnie surowe skany były oczyszczane poprzez usuwanie tła i obszarów szyi, wyrównywanie pozycji głowy, korektę właściwości powierzchni oraz wyodrębnianie 84 standardowych punktów charakterystycznych na każdej twarzy.

Figure 2. Surowa trójwymiarowa twarz jest stopniowo wygładzana do wspólnej siatki, która zachowuje detale mimiczne przy jednoczesnym dopasowaniu struktury.

Uczynienie każdej twarzy porównywalną

Centralnym wyzwaniem w badaniach nad twarzami 3D jest to, że surowe skany nie dzielą tej samej struktury cyfrowej. Mogą się różnić liczbą punktów i sposobem ich połączenia, co utrudnia porównanie uśmiechu jednej osoby z uśmiechem innej. AST-Face rozwiązuje to, przeprowadzając każdy skan przez dwuetapowy proces wyrównywania. Najpierw dopasowywany jest elastyczny model twarzy, aby uchwycić duże ruchy, takie jak otwarte usta czy uniesione brwi. Następnie zaawansowany algorytm dopasowania delikatnie przekształca wspólną siatkę szablonową, tak aby wszystkie końcowe twarze miały identyczną liczbę punktów i połączeń. Ta zunifikowana struktura pozwala badaczom porównywać twarze punkt po punkcie między osobami i wyrazami bez konieczności tworzenia własnego złożonego procesu wstępnego przetwarzania.

Do czego można wykorzystać dane

Gotowy zbiór oferuje kilka warstw informacji: znormalizowane siatki 3D, punkty charakterystyczne, szczegółowe mapy pokazujące, jak każde wyrażenie różni się od twarzy neutralnej oraz zweryfikowane etykiety dla każdej emocji i jednostki akcji. Publicznie dostępne pliki nie zawierają tekstur identyfikowalnych, natomiast surowe skany i obrazy kolorowe udostępniane są na zasadzie umowy o wykorzystaniu danych w celu ochrony prywatności uczestników. Dzięki takiej strukturze AST-Face może wspierać szeroki zakres prac, od bardziej naturalnej animacji twarzy sterowanej kontrolami przypominającymi mięśnie, przez modele uczenia maszynowego badające zróżnicowanie wyrażeń między osobami, po systemy multimodalne łączące kształt 3D z obrazem 2D.

Co to oznacza dla przyszłych cyfrowych twarzy

W prostych słowach, AST-Face daje badaczom wysokiej jakości, dobrze zorganizowany zestaw azjatyckich wschodnioazjatyckich twarzy 3D, które mówią tym samym cyfrowym językiem. Poprzez połączenie różnorodnych wyrażeń, starannie sprawdzonych etykiet mięśniowych i wspólnej struktury siatki, zbiór ułatwia tworzenie i testowanie algorytmów wymagających spójnych, realistycznych ruchów mimicznych. Choć skupia się na konkretnej grupie wiekowej i pozowanych wyrazach twarzy w kontrolowanym oświetleniu, pomaga zmniejszać luki demograficzne w istniejących zasobach i kładzie klarowną podstawę pod bardziej inkluzywne i dokładne cyfrowe twarze w przyszłości.

Cytowanie: Zhao, Y., Gong, G., Li, Y. et al. A Topology Standardized 3D Facial Dataset with Emotion and Action Unit Diversity for East Asians. Sci Data 13, 735 (2026). https://doi.org/10.1038/s41597-026-07098-2

Słowa kluczowe: zbiór twarzy 3D, wyraz twarzy, twarze Azjatów Wschodnich, jednostki akcji, standaryzacja topologii