Clear Sky Science · de

Ein topologisch standardisiertes 3D-Gesichtsdatenset mit Emotions- und Action-Unit-Vielfalt für Ostasiaten

2026-03-24 · Zurück zur Übersicht

Warum digitale Gesichter wichtig sind

Von Videotelefonaten bis zur virtuellen Realität begegnen uns digitale Gesichter überall. Viele der dahinterliegenden Systeme werden jedoch mit begrenzten Daten trainiert, häufig mit Schwerpunkt auf westlichen Populationen und einem engen Ausdrucksspektrum. Dieses Paper stellt AST-Face vor, ein neues 3D-Gesichtsdatenset, das sich auf ostasiatische junge Erwachsene konzentriert und Forschern bessere Bausteine für Animation, Emotionsforschung und Mensch–Computer-Interaktion bieten soll.

Figure 1. Viele ostasiatische 3D-Gesichter werden in eine gemeinsame Struktur überführt, damit Computersysteme Gesichtsausdrücke fair vergleichen können.

Was die neue Gesichtssammlung enthält

Das AST-Face-Datenset umfasst detaillierte 3D-Scans von 98 ostasiatischen Teilnehmenden im Alter von 18 bis 30 Jahren. Für jede Person erfasste das Team ein neutrales Gesicht, sechs häufige Emotionen (Freude, Ärger, Trauer, Überraschung, Angst und Ekel) sowie neun spezifische muskelbasierte Gesichtsbewegungen. Diese Bewegungen folgen einem etablierten System, das Ausdrücke in kleine Action Units unterteilt, etwa das Anheben der inneren Augenbrauen oder das Ziehen der Mundwinkel. Ein Teil der Freiwilligen erlaubte zudem synchronisierte Farbfotos aus drei Kamerawinkeln, wodurch eine reichhaltigere Ressource für Studien entsteht, die 3D-Form und normale Bilder kombinieren.

Wie die Gesichter erfasst und bereinigt wurden

Um die Daten zuverlässig und vergleichbar zu machen, errichteten die Forschenden ein sorgfältig kontrolliertes Aufnahme-Setup. Ein hochpräziser 3D-Scanner zeichnete feine Details jedes Gesichts auf, während drei Farbkameras von links, Mitte und rechts filmten. Anpassbare Beleuchtung reduzierte Schatten und Reflexionen, und eine Positionierungshilfe unterstützte die Teilnehmenden dabei, eine stabile Pose einzunehmen. Alle folgten dem gleichen Aufnahmeprotokoll: zuerst ein entspanntes neutrales Gesicht, dann die sechs Emotionen und schließlich die neun Action Units, jeweils unter Anleitung geschulter Mitarbeiter. Anschließend wurden die Rohscans bereinigt, indem Hintergrund- und Halsbereiche entfernt, Kopfhaltung ausgerichtet, Oberflächeneigenschaften korrigiert und 84 standardisierte Landmark-Punkte auf jedem Gesicht extrahiert wurden.

Figure 2. Ein grobes 3D-Gesicht wird schrittweise zu einem glatten, gemeinsamen Mesh verfeinert, das Ausdrucksdetails bewahrt und gleichzeitig die Struktur angleicht.

Jedes Gesicht vergleichbar machen

Eine zentrale Herausforderung in der 3D-Gesichtsforschung ist, dass Rohscans nicht dieselbe digitale Struktur teilen. Sie können sich in der Anzahl der Punkte und deren Verbindung unterscheiden, was den Vergleich eines Lächelns mit einem anderen erschwert. AST-Face begegnet diesem Problem mit einem zweistufigen Ausrichtungsprozess für jeden Scan. Zuerst wird ein flexibles Gesichtsmodell angepasst, um große Bewegungen wie offene Münder und angehobene Augenbrauen zu erfassen. Anschließend verformt ein fortgeschrittener Matching-Algorithmus sanft ein gemeinsames Template-Mesh, sodass alle finalen Gesichter identische Punktanzahlen und Konnektivität aufweisen. Diese einheitliche Struktur erlaubt Forschenden, Gesichter Punkt für Punkt über Personen und Ausdrücke hinweg zu vergleichen, ohne eigene komplexe Vorverarbeitungs-Pipelines entwickeln zu müssen.

Wofür die Daten genutzt werden können

Das fertige Datenset bietet mehrere Informationsschichten: standardisierte 3D-Meshes, Landmark-Punkte, detaillierte Karten der Ausdrucksunterschiede gegenüber dem neutralen Gesicht sowie geprüfte Labels für jede Emotion und jede Action Unit. Öffentlich verfügbare Dateien schließen identifizierende Texturen aus, während Rohscans und Farbfotos hinter einer Datennutzungsvereinbarung liegen, um die Privatsphäre der Teilnehmenden zu schützen. Mit dieser Struktur kann AST-Face ein breites Spektrum an Arbeiten unterstützen, von natürlicherer Gesichtsanimation mit muskelähnlichen Steuerungen über maschinelle Lernmodelle zur Untersuchung individueller Ausdrucksvariationen bis hin zu multimodalen Systemen, die 3D-Form und 2D-Bilddaten verknüpfen.

Was das für zukünftige digitale Gesichter bedeutet

Einfach gesagt liefert AST-Face Forschenden einen hochwertigen, gut organisierten Satz ostasiatischer 3D-Gesichter, die alle dieselbe digitale Sprache sprechen. Durch die Kombination vielfältiger Ausdrücke, sorgfältig geprüfter muskelbasierter Labels und einer gemeinsamen Mesh-Struktur erleichtert das Datenset das Entwickeln und Testen von Algorithmen, die konsistente, realistische Gesichtsbewegungen benötigen. Obwohl es sich auf eine bestimmte Altersgruppe und posierte Ausdrücke unter kontrollierter Beleuchtung konzentriert, hilft es, demografische Lücken in existierenden Ressourcen zu schließen und legt ein klareres Fundament für inklusivere und genauere digitale Gesichter in der Zukunft.

Zitation: Zhao, Y., Gong, G., Li, Y. et al. A Topology Standardized 3D Facial Dataset with Emotion and Action Unit Diversity for East Asians. Sci Data 13, 735 (2026). https://doi.org/10.1038/s41597-026-07098-2

Schlüsselwörter: 3D-Gesichtsdatenset, Gesichtsausdruck, ostasiatische Gesichter, Action Units, Topologie-Standardisierung