Clear Sky Science · pl

Zestaw danych Minimalnej Treści Semantycznej (MSC): duże, zrównoważone źródło do badań nad estetyką komputerową

2026-02-17 · Powrót do spisu

Dlaczego piękno na zdjęciach jest trudniejsze do zmierzenia, niż się wydaje

Dlaczego niektóre zdjęcia wydają nam się piękne, podczas gdy inne sprawiają wrażenie mdłych lub wręcz brzydkich? Można by myśleć, że naukowcy odpowiedzą na to, mierząc kolory, kontrast czy wzory na obrazie. Jest jednak problem: nasze reakcje splatają się z tym, co fotografia przedstawia — ludźmi, miejscami, symbolami i wspomnieniami. Ten artykuł przedstawia nowy, starannie zaprojektowany zbiór obrazów, który stara się odsłonić te rozpraszające elementy, aby badacze mogli skupić się na tym, jak oko i mózg reagują na samą, surową formę obrazu.

Usuwanie opowieści z obrazu

Większość popularnych baz zdjęć wykorzystywanych w badaniach pochodzi z serwisów do dzielenia się fotografiami i konkursów. Te źródła niosą ze sobą tytuły, tematy i odniesienia kulturowe, które subtelnie wpływają na oceny. Dowcip trafiający w temat konkursu potrafi sprawić, że przeciętne zdjęcie wygra. Silne symbole, na przykład flagi, mogą zdobywać wysokie oceny z powodów kulturowych, a nie wizualnych. Ponadto rzadko ktoś wrzuca naprawdę złe zdjęcia, więc istniejące bazy są pełne obrazów o przyzwoitej lub wyższej jakości. W efekcie trudno rozróżnić, czy wysoka ocena wynika z budowy obrazu — jego kolorów, tekstur i kształtów — czy z tego, co on oznacza.

Tworzenie świata cichych scen

Aby temu zaradzić, autorzy stworzyli bazę Minimalnej Treści Semantycznej (MSC): ponad dziesięć tysięcy obrazów wybranych tak, by były bogate wizualnie, ale jak najmniej „opowiadalne”. Zaczęli od zdjęć z domeny publicznej i kolekcji prywatnych, po czym usunęli wszystkie obrazy zawierające ludzi, zwierzęta, budynki, napisy lub silne przedmioty symboliczne. Unikali też widoków w stylu pocztówek, które mogłyby wywoływać silne wspomnienia lub emocje. Pozostały głównie fragmenty natury — liście, kora, skały, chmury, powierzchnie wody i warstwy leśnego poszycia. Sceny te nie są całkowicie pozbawione sensu, ale są znacznie bardziej jednorodne pod względem tematu. Dzięki temu różnice w ocenach ludzi bardziej prawdopodobnie wynikają z cech wizualnych, takich jak kolor, światło i struktura, a nie z tego, kto lub co jest przedstawione.

Wynalezienie narzędzia do tworzenia piękna i brzydoty na żądanie

Nawet po takiej selekcji kolekcja wyjściowa wciąż skłaniała się ku przyjemnym wizualnie obrazom. Aby uzyskać solidne podstawy naukowe, badacze potrzebowali wielu przykładów równomiernie rozłożonych od bardzo brzydkich do bardzo pięknych. Zespół stworzył więc prosty program edycyjny nazwany potocznie „Uglifier” (Brzydok). Czterdzieści osób ochotników używało go, aby przesuwać wybrane obrazy w dwóch kierunkach: uczynić je jak najbardziej pięknymi lub jak najbardziej brzydkimi, regulując suwaki jasności, kontrastu, mieszanki kolorów, ostrości, zaszumienia, kadrowania i kilka bardziej zaawansowanych transformacji. Badacze zapisali także niektóre z tych przepisów edycyjnych i zastosowali je automatycznie do innych zdjęć, dodając dużą partię dodatkowych, „brzydkich” wariantów. To dało zróżnicowaną mieszankę oryginałów, upiększonych, zbrzydzonych i automatycznie zbrzydzonych scen.

Prośba do tysięcy ludzi, by głosowali oczami

Następnie autorzy zwrócili się do platformy crowdsourcingowej osadzonej w grze online, rekrutując ponad dziesięć tysięcy graczy na całym świecie. Każde zdjęcie z zestawu MSC było pokazywane stu różnym, nieeksperckim widzom, którzy oceniali jego piękno na prostej pięciopunktowej skali od bardzo brzydkie do bardzo piękne. Przykłady treningowe na krańcach skali pomagały wykorzystać pełny zakres ocen. Staranna kontrola jakości wyeliminowała graczy, którzy najwyraźniej klikali losowo. Ostatecznym rezultatem jest kolekcja obrazów, gdzie każda scena ma bogatą historię ocen, a obrazy brzydkie, przeciętne i piękne są dobrze reprezentowane zamiast skupiać się w środku.

Co to ujawnia o pięknie i strukturze wizualnej

Mając w ręku tę zrównoważoną bazę danych, zespół przeanalizował, jak dziesiątki podstawowych właściwości obrazu — takich jak kontrast, zmienność kolorów, gęstość krawędzi, symetria czy tekstura przypominająca fraktale — odnoszą się do ocen piękna. Odkryli, że gdy oceny są równomiernie rozłożone w skali od brzydkiego do pięknego, związki między tymi niskopoziomowymi cechami a sądami ludzi stają się jaśniejsze i często silniejsze. W niektórych przypadkach kierunek zależności odwraca się w porównaniu z wynikami ze starszych, obciążonych baz danych. Sprawdzili też, czy Uglifier wytwarza wąski, sztuczny typ brzydoty; zamiast tego edytowane obrazy wykazały podobne podstawowe statystyki do naturalnie nisko ocenianych oryginałów, co sugeruje, że manipulacje uchwyciły rzeczywiste tendencje wizualne, a nie karykaturalne skrajności.

Dlaczego to ma znaczenie dla rozumienia gustu

Dla zwykłego widza wniosek jest taki, że naukowcy mogą teraz badać smak wizualny w czyściejszy sposób. Baza MSC oferuje świat cichych, głównie naturalnych scen, w którym piękno i brzydota zależą przede wszystkim od tego, jak coś wygląda, a nie od tego, kogo lub co przedstawia. To czyni ją potężnym polem testowym dla psychologii, neuronauki i badań sztucznej inteligencji, które dążą do przewidywania preferencji estetycznych na podstawie samej struktury obrazów. Później można ponownie nałożyć bardziej złożone znaczenie i kontekst kulturowy. Zaczynając od obrazów, które mówią bardzo niewiele i wyglądają bardzo różnie, projekt MSC pomaga wyjaśnić, ile naszego poczucia piękna pochodzi z oka, zanim umysł doda swoje opowieści.

Cytowanie: Penacchio, O., Javed, A., Raducanu, B. et al. The Minimum Semantic Content (MSC) Dataset: A Large, Balanced Resource for Computational Aesthetics Research. Sci Data 13, 470 (2026). https://doi.org/10.1038/s41597-026-06816-0

Słowa kluczowe: estetyka wizualna, baza obrazów, oceny ze źródeł społecznościowych, piękno obliczeniowe, tekstury naturalne