Clear Sky Science · pl
RAID-Dataset: odpowiedzi ludzi na afiniczne zniekształcenia obrazu i szum Gaussa
Dlaczego drobne zmiany obrazu mają znaczenie dla twoich oczu
Każdego dnia twoje oczy bez wysiłku radzą sobie ze zdjęciami, które są przechylone, przybliżone, przesunięte lub lekko ziarniste — pomyśl o fotografowaniu poruszającego się obiektu telefonem lub przeglądaniu nieco rozmytych obrazów w mediach społecznościowych. Ale w jaki sposób ludzie dokładnie wyczuwają te zmiany i czy komputery można nauczyć oceniania jakości obrazu tak, jak my to robimy? Ten artykuł przedstawia nowy zbiór danych o nazwie RAID, który starannie mierzy, jak obserwatorzy ludzie reagują na proste, lecz powszechne zniekształcenia obrazu, tworząc pomost między codziennym doświadczeniem wzrokowym a algorytmami napędzającymi aparaty, usługi strumieniowe i sztuczną inteligencję.

Powszechne poprawki obrazu poddane próbie
Naukowcy skupili się na czterech bardzo podstawowych zmianach, które stale występują zarówno w świecie rzeczywistym, jak i w obrazach cyfrowych: rotacji (przechylanie obrazu), translacji (przesunięcie w bok), skalowaniu (przybliżanie lub oddalanie) oraz dodaniu ziarnistego szumu znanego jako szum Gaussa. W przeciwieństwie do wielu istniejących baz jakości obrazu, które kładą nacisk na artefakty kompresji czy cyfrowe usterki, te transformacje naśladują to, co dzieje się, gdy ruszasz głową, zmieniasz kierunek spojrzenia, albo gdy obiekty się poruszają i zmienia się oświetlenie. Korzystając z 24 naturalnych kolorowych fotografii z dobrze znanej kolekcji Kodak, zespół stworzył po dziewięć rosnących poziomów każdej deformacji oraz oryginał, co daje w sumie 888 obrazów.
Jak ludzie porównywali różnice obrazów
Aby sprawdzić, jak zauważalne są te zmiany, 210 ochotników przyszło do kontrolowanego laboratorium, usiadło przed skalibrowanymi monitorami i wzięło udział w ponad 40 000 prób. W każdej próbie widzieli dwa pary obrazów na ekranie i musieli odpowiedzieć na proste pytanie: która para wygląda na bardziej różną, lewa czy prawa? Ta metoda, znana w naukach o widzeniu jako Maximum Likelihood Difference Scaling, pozwoliła badaczom przekształcić wiele takich wyborów w gładką „skalę percepcyjną” dla każdego rodzaju zniekształcenia. Każdy punkt na skali pokazuje, jak silnie dany poziom zniekształcenia odczuwany jest przez przeciętnego obserwatora — od ledwie widocznego do wyraźnie oczywistego.

Pomiary czasu reakcji mózgu
Podczas gdy uczestnicy podejmowali decyzje, eksperyment rejestrował także czas ich reakcji. Te czasy reakcji ujawniły klasyczny schemat obserwowany w innych obszarach percepcji: gdy różnica między obrazami była bardzo mała lub wyjątkowo duża, ludzie odpowiadali stosunkowo szybko, natomiast przy umiarkowanym stopniu trudności zwalniali. W miarę jak zniekształcenia stawały się silniejsze, układ wzrokowy potrzebował mniej czasu, by zdecydować, która para różni się bardziej. To zachowanie zgadza się z dobrze znanym prawem w psychologii, prawem Piérona, które łączy silniejsze sygnały sensoryczne z szybszymi odpowiedziami i wspiera wniosek, że zbiór danych rejestruje rzeczywiste właściwości widzenia ludzkiego, a nie losowy szum w decyzjach ludzi.
Porównanie z istniejącymi ocenami jakości
Aby uczynić nowe dane użytecznymi dla inżynierów i naukowców, którzy już polegają na ustalonych benchmarkach jakości obrazu, autorzy porównali swoje pomiary dla obrazów zaszumionych z wynikami z popularnej bazy o nazwie TID2013, gdzie ludzie oceniali jakość obrazu na typowej skali „opinion score”. Stwierdzili silny, niemal liniowy związek: zniekształcenia, które obserwatorzy RAID uznali za bardziej zauważalne, zwykle otrzymywały niższe oceny jakości w TID2013. To powiązanie pozwoliło zespołowi wyprowadzić prosty wzór konwertujący wartości ich skali percepcyjnej na standardowe oceny opinii, co ułatwia łączenie RAID ze starszymi zestawami danych i wpinanie go w istniejące procedury oceny.
Dlaczego to ma znaczenie dla badań nad wzrokiem i AI
Ponad zgodnością z wcześniejszymi pracami, nowy zbiór danych uwypukla przypadki, w których jego ostro mierzone pomiary przewyższają tradycyjne oceny opinii. Poprzez celowe wyszukiwanie par obrazów, gdzie jedna metoda mówi, że zniekształcenia są podobne, a druga że bardzo różne, a następnie pytanie ludzi, która ma rację, autorzy wykazują, że ich podejście częściej zgadza się z tym, co widzą oglądający. Zbiór ujawnia też intuicyjne wzorce: niewielkie przechylenie jest znacznie bardziej widoczne na pejzażu morskim z wyraźnym horyzontem niż w zatłoczonej scenie pełnej ukośnych kształtów, a szum wyróżnia się bardziej na gładkim niebie niż na bogatej w detale teksturze. Wszystko to sprawia, że RAID oferuje bogatszy, bardziej zorientowany na człowieka opis tego, jak zauważamy codzienne zmiany na obrazach, dostarczając solidnego gruntu do ulepszania zarówno modeli widzenia ludzkiego, jak i systemów AI, które dążą do postrzegania świata podobnie jak my.
Cytowanie: Daudén-Oliver, P., Agost-Beltran, D., Sansano-Sansano, E. et al. RAID-Dataset: human responses to affine image distortions and Gaussian noise. Sci Data 13, 256 (2026). https://doi.org/10.1038/s41597-026-06581-0
Słowa kluczowe: jakość obrazu, wzrok ludzki, percepcja wzrokowa, zniekształcenia obrazu, psychofizyka