Clear Sky Science · pl
Rozpoznawanie wyrazu twarzy za pomocą wnioskowania wariacyjnego
Odczytywanie uczuć z twarzy
Nasze twarze nieustannie przekazują informacje o tym, co czujemy, ale te sygnały rzadko bywają jednoznaczne. Uśmiech może ukrywać nerwowość, a „neutralny” wyraz twarzy może łączyć znużenie z irytacją. W tym badaniu przedstawiono POSTER-Var, nowy system sztucznej inteligencji (AI), który ma odczytywać takie subtelne, mieszane emocje dokładniej niż współczesne narzędzia do analizy wyrazu twarzy, co może poprawić wszystko — od interakcji człowiek–komputer po monitorowanie zdrowia psychicznego.
Dlaczego emocje nie są tylko włączone lub wyłączone
Większość istniejących systemów rozpoznawania wyrazu twarzy traktuje emocje jako wyraźne, oddzielne kategorie: radość, smutek, złość itd. W rzeczywistości psychologia pokazuje, że ekspresje to mieszanki podstawowych emocji, o różnych natężeniach występujących jednocześnie na jednej twarzy. Tradycyjne modele AI zwykle zmuszają każde zdjęcie do przypisania jednej sztywnej etykiety, ignorując niepewność i ciągły, stopniowany charakter uczuć. Czynią je to podatnymi na błędy w złożonych, rzeczywistych warunkach, gdzie oświetlenie, poza czy niespójne oznaczenia ludzkie wprowadzają szum. Autorzy argumentują, że przyszłe systemy muszą uznać, iż twarz może sugerować kilka emocji o różnych intensywnościach, a komputery powinny rozumować w kategoriach prawdopodobieństw zamiast decyzji tak/nie.

Pozwolić modelowi objąć niepewność
Aby lepiej dopasować się do tej złożonej rzeczywistości, zespół bazuje na technice z nowoczesnego modelowania probabilistycznego zwanej wnioskowaniem wariacyjnym. Zamiast produkować pojedynczy, stały wynik dla każdej emocji, system POSTER-Var mapuje cechy twarzy do „przestrzeni ukrytej”, gdzie każda emocja jest reprezentowana przez rozkład prawdopodobieństwa, zwykle o kształcie krzywej dzwonowej. Podczas treningu system pobiera próbki z tych wyuczonych rozkładów, zachęcając go do eksplorowania zakresu możliwych interpretacji każdej twarzy. W fazie testowej używa jednak środków tych rozkładów, aby uzyskać stabilne przewidywania. Co istotne, POSTER-Var usuwa dodatkowe warstwy dekodujące i w pełni połączone stosowane w wcześniejszych wariacyjnych projektach, traktując samą probabilistyczną reprezentację jako końcowy sygnał decyzyjny. To uproszczenie — „Głowa klasyfikacyjna oparta na wnioskowaniu wariacyjnym” (VICH) — pozwala modelowi kwantyfikować niepewność, zachowując przy tym wydajność i dokładność.
Widzenie twarzy w wielu skalach
Rozpoznawanie ekspresji wymaga też spojrzenia na różne części twarzy i na różne poziomy szczegółu: krzywiznę ust, kształt oczu i ogólną konfigurację — wszystko ma znaczenie. POSTER-Var rozszerza silny wcześniejszy system (POSTER++) poprzez ulepszenie sposobu łączenia tych wieloskalowych cech. Wykorzystuje kilka mechanizmów uwagi do łączenia informacji z podstawowego modelu obrazowego i detektora punktów charakterystycznych twarzy, który śledzi kluczowe punkty, takie jak kąty oczu i krawędzie ust. „Osadzenie warstwy” oznacza każdą mapę cech jej pozycją i poziomem semantycznym w piramidzie przetwarzania, pomagając sieci zrozumieć, z jakiego miejsca pochodzą konkretne szczegóły. Transformacje nieliniowe i ulepszony blok uwagi kanałowej następnie przywracają równowagę tym cechom, wzmacniając te najbardziej informatywne dla ekspresji i tłumiąc rozproszenia, takie jak bałagan w tle czy specyficzne cechy tożsamości.

Próba systemu
Naukowcy ocenili POSTER-Var na trzech szeroko stosowanych, rzeczywistych zbiorach danych: RAF-DB, AffectNet i FER+. Te kolekcje zawierają setki tysięcy twarzy zarejestrowanych w nieskontrolowanych warunkach, z każdą oto oznaczoną jedną z kilku podstawowych emocji. W całym zestawie testów POSTER-Var dorównywał lub przewyższał obecne metody będące stanem wiedzy. Na przykład osiągnął około 93% dokładności na RAF-DB i około 92% na FER+, oraz nieco lepsze wyniki na siedmioklasowych i ośmioklasowych wersjach AffectNet. Eksperymenty ablacjne, w których usuwano poszczególne komponenty, wykazały, że zarówno osadzenie warstwy, jak i wariacyjna głowa znacząco przyczyniały się do wydajności, przy czym komponent wariacyjny był szczególnie pomocny na trudniejszych, bardziej niezrównoważonych zbiorach. Wizualizacje map uwagi pokazały, że POSTER-Var koncentruje się na szerszych, bardziej znaczących obszarach twarzy niż punkt odniesienia, a wykresy jego wyuczonych rozkładów emocji ilustrowały, jak lepiej rozdziela na przykład „smutek” od „neutralnego” w niejednoznacznych przypadkach.
Co to oznacza dla zastosowań w świecie rzeczywistym
Mówiąc prościej, POSTER-Var uczy maszyny traktować wyrazy twarzy mniej jak sygnalizację świetlną, a bardziej jak prognozę pogody: może dominować „słoneczny” nastrój z rozproszonymi „pochmurnymi” wskazówkami i prognoza powinna uwzględniać niepewność. Modelując pełne rozkłady emocji zamiast pojedynczego przypuszczenia, system staje się bardziej odporny na zaszumione etykiety i subtelne, mieszane ekspresje. Badanie sugeruje, że takie probabilistyczne podejścia mogą stanowić podstawę następnej generacji technologii wrażliwych na afekty, czyniąc wirtualnych asystentów, roboty społeczne i narzędzia badawcze w dziedzinie zachowań lepiej dostrojone do złożonego życia emocjonalnego, które nasze twarze jedynie niedoskonałe ujawniają.
Cytowanie: Lv, G., Zhang, J. & Tsoi, C. Facial expression recognition via variational inference. Sci Rep 16, 7323 (2026). https://doi.org/10.1038/s41598-026-38734-x
Słowa kluczowe: rozpoznawanie wyrazu twarzy, emocjonalna sztuczna inteligencja, modelowanie probabilistyczne, wnioskowanie wariacyjne, wizja komputerowa