Clear Sky Science · ru

RAID-Dataset: человеческие реакции на аффинные искажения изображений и гауссовский шум

2026-01-15 · Назад к списку

Почему мельчайшие изменения изображения важны для ваших глаз

Каждый день ваши глаза без усилий справляются с фотографиями, которые слегка наклонены, увеличены, смещены или немного зернисты — представьте съёмку движущегося объекта на телефон или пролистывание чуть размытых изображений в соцсетях. Но как именно люди замечают эти изменения и можно ли научить компьютеры оценивать качество изображения так же, как мы? В этой статье представлен новый набор данных под названием RAID, который тщательно фиксирует реакцию человеческих наблюдателей на простые, но распространённые искажения изображений, создавая мост между повседневным визуальным опытом и алгоритмами, которые управляют камерами, потоковыми сервисами и системами искусственного интеллекта.

Проверка распространённых изменений изображения

Исследователи сосредоточились на четырёх очень простых трансформациях, которые постоянно встречаются в реальном мире и в цифровых изображениях: поворот (наклон изображения), перенос (сдвиг вбок), масштабирование (увеличение или уменьшение) и добавление зернистого шума, известного как гауссовский шум. В отличие от многих существующих баз данных качества изображения, которые подчёркивают артефакты сжатия или цифровые сбои, эти преобразования имитируют то, что происходит, когда вы поворачиваете голову, меняете направление взгляда, двигаются объекты или меняется освещение. Используя 24 цветные природные фотографии из хорошо известной коллекции Kodak, команда создала по девять уровней каждой искажения с возрастающей силой, плюс оригинал, в сумме 888 изображений.

Как люди сравнивали отличия изображений

Чтобы выяснить, насколько заметны эти изменения, 210 добровольцев пришли в контролируемую лабораторию, сели перед откалиброванными мониторами и приняли участие в более чем 40 000 испытаний. В каждом испытании им показывали две пары изображений на экране и задавали простой вопрос: какая пара выглядит более различной, левая или правая? Этот метод, известный в науке о зрении как шкалирование по максимальной правдоподобности различий (Maximum Likelihood Difference Scaling), позволил исследователям превратить множество таких выборов в плавную «перцептивную шкалу» для каждого искажения. Каждая точка на шкале отражает, насколько сильным кажется данный уровень искажения для среднего наблюдателя — от едва заметного до совершенно очевидного.

Измерение времени реакции мозга

Пока люди делали свои выборы, эксперимент также фиксировал, сколько времени они затратили на ответ. Эти времена реакции выявили классическую закономерность, наблюдаемую в других областях восприятия: когда разница между изображениями очень мала или чрезвычайно велика, люди отвечали относительно быстро, а при промежуточной сложности они замедлялись. По мере усиления искажений визуальной системе требовалось меньше времени, чтобы решить, какая пара отличается больше. Это поведение согласуется с хорошо известным правилом в психологии — законом Пьерона, который связывает более сильные сенсорные сигналы с более быстрыми ответами, и подтверждает, что набор данных фиксирует подлинные свойства человеческого зрения, а не случайный шум в решениях людей.

Сравнение с существующими оценками качества

Чтобы сделать новые данные полезными для инженеров и учёных, уже использующих устоявшиеся эталоны качества изображения, авторы сравнили свои измерения для зашумлённых изображений с оценками из популярной базы TID2013, где люди ставили качество изображения по типичной шкале «оценочного мнения». Они обнаружили сильную, практически линейную зависимость: искажения, которые наблюдатели RAID считали более заметными, как правило, получали более низкие оценки качества в TID2013. Эта связь позволила команде вывести простую формулу для преобразования значений перцептивной шкалы в стандартные оценочные баллы, что облегчает объединение RAID с более старыми наборами данных и интеграцию в существующие конвейеры оценки.

Почему это важно для исследования зрения и ИИ

Помимо соответствия предыдущим работам, новый набор данных подчёркивает случаи, в которых его тщательные измерения превосходят традиционные оценочные шкалы. Целенаправленно подбирая пары изображений, где один метод говорит, что искажения схожи, а другой — что они сильно различаются, и затем спрашивая людей, кто прав, авторы показывают, что их подход чаще совпадает с тем, что действительно видят зрители. Набор данных также выявляет интуитивные закономерности: лёгкий наклон гораздо заметнее на морском пейзаже со выраженной линией горизонта, чем в оживлённой сцене с множеством наклонных форм, а шум сильнее выделяется на ровном небе, чем на детализированных текстурах. В совокупности эти результаты означают, что RAID предлагает более насыщенное, ориентированное на человека описание того, как мы замечаем повседневные изменения в изображениях, предоставляя надёжную площадку для улучшения как моделей человеческого зрения, так и ИИ-систем, стремящихся видеть мир так же, как мы.

Цитирование: Daudén-Oliver, P., Agost-Beltran, D., Sansano-Sansano, E. et al. RAID-Dataset: human responses to affine image distortions and Gaussian noise. Sci Data 13, 256 (2026). https://doi.org/10.1038/s41597-026-06581-0

Ключевые слова: качество изображения, человеческое зрение, визуальное восприятие, искажения изображения, психофизика