Clear Sky Science · es

RAID-Dataset: respuestas humanas a distorsiones afines en imágenes y ruido gaussiano

· Volver al índice

Por qué pequeños cambios en las imágenes importan para tus ojos

Cada día, tus ojos afrontan sin esfuerzo fotos que están inclinadas, ampliadas, desplazadas o algo granuladas—piensa en fotografiar un sujeto en movimiento con el móvil o en desplazarte por imágenes ligeramente borrosas en redes sociales. Pero ¿cómo perciben exactamente las personas esos cambios, y pueden enseñarse a los ordenadores a valorar la calidad de una imagen como lo hacemos nosotros? Este artículo presenta un nuevo conjunto de datos, llamado RAID, que mide con cuidado cómo reaccionan los observadores humanos ante distorsiones simples pero habituales en imágenes, creando un puente entre la experiencia visual cotidiana y los algoritmos que impulsan cámaras, servicios de streaming e inteligencia artificial.

Figure 1
Figure 1.

Ajustes comunes de las imágenes puestos a prueba

Los investigadores se centraron en cuatro cambios muy básicos que ocurren constantemente tanto en el mundo real como en imágenes digitales: rotación (inclinar una imagen), traslación (desplazarla lateralmente), escalado (hacer zoom in o out) y la adición de grano conocido como ruido gaussiano. A diferencia de muchas bases de datos de calidad de imagen existentes que enfatizan artefactos de compresión o fallos digitales, estas transformaciones imitan lo que sucede cuando mueves la cabeza, cambias la mirada o cuando los objetos se mueven y varía la iluminación. Usando 24 fotografías en color de la naturaleza de una conocida colección Kodak, el equipo creó nueve niveles crecientes de cada distorsión, más la original, para un total de 888 imágenes.

Cómo la gente comparó las diferencias entre imágenes

Para averiguar cuán perceptibles son realmente estos cambios, 210 voluntarios acudieron a un laboratorio controlado, se sentaron frente a monitores calibrados y participaron en más de 40.000 ensayos. En cada prueba vieron dos pares de imágenes en la pantalla y tuvieron que responder una pregunta simple: ¿qué par parece más diferente entre sí, el par de la izquierda o el de la derecha? Este método, conocido en la ciencia de la visión como Maximum Likelihood Difference Scaling, permitió a los investigadores convertir muchas de esas elecciones en una “escala perceptual” continua para cada distorsión. Cada punto de la escala muestra qué tan intensa se siente una determinada magnitud de distorsión para el observador medio, desde apenas visible hasta claramente obvia.

Figure 2
Figure 2.

Midiendo el tiempo de reacción del cerebro

Mientras las personas tomaban sus decisiones, el experimento también registró cuánto tardaban en responder. Estos tiempos de reacción revelaron un patrón clásico observado en otras áreas de la percepción: cuando la diferencia entre las imágenes era muy pequeña o extremadamente grande, la gente respondía relativamente rápido, pero en dificultades intermedias se ralentizaba. A medida que las distorsiones se hacían más fuertes, el sistema visual necesitaba menos tiempo para decidir qué par difería más. Este comportamiento coincide con una regla bien conocida en psicología, la ley de Piéron, que vincula señales sensoriales más fuertes con respuestas más rápidas y respalda la idea de que el conjunto de datos captura propiedades genuinas de la visión humana más que ruido aleatorio en las decisiones de los participantes.

Comparación con puntuaciones de calidad existentes

Para que los nuevos datos sean útiles a ingenieros y científicos que ya dependen de referencias establecidas de calidad de imagen, los autores compararon sus mediciones para imágenes con ruido con las puntuaciones de una base de datos popular llamada TID2013, donde la gente valoró la calidad de imagen con una típica escala de “puntuación de opinión”. Encontraron una relación fuerte, casi lineal: las distorsiones que los observadores de RAID juzgaban como más notables tendían a recibir puntuaciones de calidad más bajas en TID2013. Este vínculo permitió al equipo derivar una fórmula sencilla para convertir los valores de su escala perceptual en puntuaciones de opinión estándar, facilitando la combinación de RAID con conjuntos de datos anteriores y su integración en canalizaciones de evaluación ya existentes.

Por qué esto importa para la visión y la IA

Más allá de coincidir con trabajos previos, el nuevo conjunto de datos destaca casos en los que sus mediciones cuidadosas superan a las puntuaciones de opinión tradicionales. Buscando deliberadamente pares de imágenes donde un método dice que las distorsiones son similares pero el otro dice que son muy distintas, y preguntando luego a las personas quién tiene razón, los autores muestran que su enfoque tiende a alinearse mejor con lo que los espectadores realmente ven. El conjunto de datos también revela patrones intuitivos: una ligera inclinación es mucho más obvia en un paisaje marino con un horizonte marcado que en una escena concurrida llena de formas anguladas, y el ruido destaca más en cielos lisos que en texturas detalladas. En conjunto, estos resultados indican que RAID ofrece una descripción más rica y centrada en lo humano sobre cómo notamos los cambios cotidianos en las imágenes, proporcionando un terreno sólido para mejorar tanto los modelos de la visión humana como los sistemas de IA que intentan ver el mundo como nosotros.

Cita: Daudén-Oliver, P., Agost-Beltran, D., Sansano-Sansano, E. et al. RAID-Dataset: human responses to affine image distortions and Gaussian noise. Sci Data 13, 256 (2026). https://doi.org/10.1038/s41597-026-06581-0

Palabras clave: calidad de imagen, visión humana, percepción visual, distorsiones de imagen, psicofísica