Clear Sky Science · pl

Zbiorowa i rozszerzona inteligencja przewyższają sztuczną inteligencję w testach rozpoznawania emocji

2026-03-24 · Powrót do spisu

Dlaczego to ma znaczenie w codziennym życiu

Kto lepiej czyta emocje z jednego spojrzenia w oczy: ludzie czy maszyny? W miarę jak systemy sztucznej inteligencji wkraczają do szkół, klinik i miejsc pracy, wiele narzędzi obiecuje ocenę nastrojów i stanów psychicznych na podstawie twarzy. To badanie pokazuje, że choć potężny model AI może pokonać większość pojedynczych osób w laboratoryjnych testach emocji, to grupy ludzi działające niezależnie wciąż wypadają lepiej, a najlepsze wyniki osiąga się, gdy łączy się oceny ludzi i maszyn.

Figure 1. Ludzie i AI razem oceniają emocje z oczu dokładniej niż każde z nich osobno.

Jak działają testy czytania emocji

Badacze skupili się na dwóch szeroko stosowanych zadaniach laboratoryjnych, które wymagają od osób wnioskowania o uczuciach i myślach jedynie na podstawie fotografii okolic oczu. W każdym teście oglądający widzi obraz i musi wybrać, które z czterech krótkich słów najlepiej pasuje do stanu psychicznego danej osoby. Jeden test wykorzystuje czarno-białe zdjęcia pochodzące głównie z jednej grupy etnicznej, podczas gdy nowsza wersja zawiera zdjęcia kolorowe przedstawiające osoby z bardziej zróżnicowanym pochodzeniem i posługuje się prostszym słownictwem. Dziesięciolecia badań wiążą wyniki w tych testach z umiejętnościami społecznymi i wynikami klinicznymi, choć nie są one doskonałym odwzorowaniem emocjonalnego życia w rzeczywistych sytuacjach.

Jak wiodące AI wypada wobec pojedynczych osób

Zespół ocenił silny model językowy multimodalny zwany GPT-5 mini, który potrafi analizować obrazy i tekst. Uruchomili model 100 razy na każdym elemencie testu, nie podając żadnych przykładów treningowych, aby uchwycić jego wynik bazowy. W porównaniu z danymi od ponad 27 000 uczestników ludzkich, GPT-5 mini odpowiadał poprawnie około 83 procent czasu w obu testach, zdecydowanie powyżej średnich ludzkich wynoszących 71 i 63 procent. Szczegółowe analizy w całym zakresie ludzkich zdolności pokazały, że AI przewyższała niemal wszystkich osób o niskich i średnich wynikach. W starszym teście jednak najlepsi ludzie nieznacznie dorównywali lub wyprzedzali model, podczas gdy w nowszym wielorasowym teście AI utrzymywała przewagę także na najwyższym poziomie.

Dlaczego tłumy ludzi biją tłumy maszyn

Następnie badacze zapytali, co się dzieje, gdy łączy się wiele oddzielnych odpowiedzi. Symulowali tłumy przez wielokrotne losowanie zbiorów ludzi albo zbiorów uruchomień AI i przyjmowanie za zwycięską najczęściej powtarzającej się odpowiedzi — prostą regułę zwaną głosowaniem większościowym. Ludzkie tłumy znacznie poprawiały dokładność wraz ze wzrostem liczebności; gdy połączono odpowiedzi 100 osób, trafność w jednym z testów zbliżała się do perfekcji. W przeciwieństwie do tego tłumy AI zyskiwały niewiele przy dodawaniu kolejnych uruchomień. Różne uruchomienia tego samego modelu miały tendencję do powtarzania tych samych błędów, więc grupa nie mogła ich samodzielnie skorygować. W praktyce było to jak zadawanie tego samego pytania temu samemu ekspertowi wielokrotnie, zamiast czerpania z różnorodnych doświadczeń życiowych.

Ludzie i AI razem działają najlepiej

Ostatnim krokiem było zmieszanie głosów ludzi i AI. Badacze stworzyli hybrydowe tłumy, w których większość stanowili ludzie, a mniejszy udział pochodził z uruchomień AI, przy czym każda strona niezależnie wnosiła swoje odpowiedzi przed ich połączeniem. Takie rozszerzone grupy konsekwentnie przewyższały zarówno tłumy złożone wyłącznie z ludzi, jak i wyłącznie z AI. W nowszym, bardziej inkluzywnym teście ani ludzie, ani AI osobno nie przekroczyli około 95 procent trafności, ale grupy mieszane osiągnęły mniej więcej 98 procent, i to przy mniejszych liczebnościach tłumu. Ten wzorzec sugeruje, że ludzie i maszyny popełniają różne rodzaje błędów, więc ich mocne strony naturalnie się uzupełniają.

Figure 2. Błędy ludzi i AI różnią się, dlatego połączenie ich przypuszczeń dotyczących emocji daje dokładniejszą decyzję końcową.

Co to oznacza dla używania AI do rozpoznawania emocji

Badanie konkluduje, że porównywanie AI do „przeciętnego człowieka” może być mylące, ponieważ pomija siłę zbiorowego osądu ludzkiego. Silny model jak GPT-5 mini może przewyższać większość jednostek w wąskich testach laboratoryjnych, a mimo to nie dorastać do możliwości, jakie razem osiągają zróżnicowane grupy ludzi, szczególnie gdy maszyny po prostu powtarzają te same błędy. Najbardziej niezawodnym podejściem do zadań takich jak odczytywanie emocji z twarzy nie jest zastępowanie ludzi przez AI, lecz łączenie ludzkiej intuicji z maszynową konsekwencją w starannie zaprojektowanych systemach, które utrzymują ludzi w pętli.

Cytowanie: Akben, M., Gude, V. & Ajjan, H. Collective and augmented intelligence outperform artificial intelligence on emotion recognition tests. Sci Rep 16, 14823 (2026). https://doi.org/10.1038/s41598-026-45331-5

Słowa kluczowe: rozpoznawanie emocji, inteligencja zbiorowa, współpraca człowiek-AI, AI multimodalne, poznanie społeczne