Clear Sky Science · es
Un conjunto de datos de representación visual multinivel para la divulgación de información no financiera a gran escala
Por qué importa el aspecto de los informes empresariales
Cuando las grandes empresas hablan sobre su impacto ambiental o social, ya no publican documentos en blanco y negro. Sus informes de sostenibilidad están llenos de fotografías, iconos y colores llamativos diseñados para atraer la atención y moldear nuestras impresiones. Pero hasta ahora no existía una forma extensa y objetiva de medir cómo se emplean estas decisiones visuales. Este estudio presenta un nuevo conjunto de datos y un sistema de medición que convierten el aspecto visual de miles de informes de sostenibilidad chinos en números concretos, ayudando a investigadores, reguladores y ciudadanos a entender mejor cómo las empresas comunican mediante el diseño además de las palabras.

De montones de informes a datos visuales organizados
Los autores recopilaron informes de sostenibilidad de empresas chinas cotizadas en las bolsas de Shanghai y Shenzhen, utilizando CNINFO, la plataforma oficial de divulgación del país. Con cobertura de los ejercicios fiscales de 2006 a 2024, la colección captura cómo la presentación de información no financiera en China ha pasado de ser algo raro a una práctica común, especialmente después de que nuevas normas bursátiles animaran a las empresas a informar sobre cuestiones sociales y ambientales. Todos los documentos se descargaron en su formato PDF original para preservar su disposición visual. Un script automatizado en Python filtró archivos corruptos, extrajo información básica como el código de la acción y el año, y organizó los informes en un sistema de carpetas estandarizado para que cada archivo pudiera rastrearse de manera única y fiable a lo largo del tiempo.
Descomponer las páginas en texto, imágenes y color
Para analizar elementos visuales a gran escala, el equipo convirtió cada página de los informes en imágenes de alta resolución y luego empleó herramientas modernas de visión por computador para dividir estas páginas en partes significativas. Un modelo de análisis de diseño identificó dónde aparecían bloques de texto, imágenes, tablas, encabezados y otros elementos en cada página. Las regiones de texto se procesaron mediante un sistema de reconocimiento óptico de caracteres que no solo leyó las palabras, sino que también midió características como el interlineado, el tamaño de fuente relativo a la página y cuántas palabras aparecían por línea y por página. Las regiones de imagen se clasificaron como “abstractas” (por ejemplo, gráficos o iconos) o “realistas” (por ejemplo, fotografías), capturando si una empresa se apoyaba más en visuales basados en datos o en narrativas emotivas con fotos. Al mismo tiempo, una rutina de análisis de color exploró cada píxel, clasificándolo en una de varias categorías de color básicas y calculando cuánto espacio de la página ocupaba cada color.
Convertir el estilo visual en números
A partir de estos elementos, los investigadores definieron 18 indicadores detallados de cómo cada página y cada informe usan texto, imágenes y color —que van desde la proporción del espacio ocupada por imágenes hasta el equilibrio entre tonos cálidos y fríos. Luego combinaron estos indicadores en dos índices clave. El Índice de Entropía de Información mide la complejidad visual al observar cuán variada es la paleta de colores: las páginas que usan muchos colores distintos en proporciones similares obtienen puntuaciones altas, mientras que las páginas simples, casi monocromáticas, puntúan bajo. El Índice de Correlación de Características captura cuán coherente es visualmente un informe de página en página al calcular la similitud entre las páginas en este espacio de características de 18 dimensiones. Valores bajos significan que las páginas mantienen un estilo visual constante; valores altos indican que el diseño cambia más drásticamente a lo largo del documento.

Comprobar que los números coinciden con las impresiones humanas
Puesto que el valor de cualquier índice depende de si refleja lo que las personas realmente ven, el equipo validó cuidadosamente sus medidas. Ajustaron y probaron sus modelos de visión por computador con miles de páginas e imágenes etiquetadas manualmente, alcanzando altos niveles de precisión en la identificación de elementos de diseño, la lectura de texto y la distinción entre diagramas abstractos y fotos realistas. Para evaluar los propios índices, compararon las puntuaciones NFIVI con valoraciones de expertos humanos y de varios sistemas de IA a los que se les pidió juzgar cuán complejos y cuán coherentes parecían diferentes informes. Las correlaciones fuertes mostraron que las puntuaciones de entropía más altas realmente corresponden con diseños más recargados y coloridos, mientras que las puntuaciones bajas de correlación de características se alinean con informes que parecen visualmente uniformes y coherentes para el ojo humano.
Qué supone esto para lectores y vigilantes
En términos cotidianos, este trabajo crea una especie de “huella visual” para miles de informes corporativos de sostenibilidad. Permite a los investigadores plantear preguntas como si las empresas bajo presión por un mal desempeño ambiental recurren más a colores brillantes e imágenes pulidas, o si diseños más sobrios van asociados a divulgaciones más fiables. Los reguladores y grupos de vigilancia podrían usar estas herramientas para detectar diseños potencialmente engañosos o para monitorizar cómo cambian los estilos informativos tras la introducción de nuevas normas. Al traducir maquetaciones de página, elecciones de imágenes y paletas de color en métricas transparentes, el conjunto de datos posibilita estudiar no solo lo que las empresas dicen, sino también cómo eligen mostrarlo.
Cita: Li, B., Xia, B., Cheng, Z. et al. A multi-level visual representation dataset for large-scale non-financial information disclosure. Sci Data 13, 500 (2026). https://doi.org/10.1038/s41597-026-06848-6
Palabras clave: informes de sostenibilidad, comunicación visual, divulgación corporativa, auditoría basada en datos, gobernanza ambiental social