Clear Sky Science · pt

Um conjunto de dados de representação visual em múltiplos níveis para divulgação de informações não financeiras em larga escala

· Voltar ao índice

Por que a aparência dos relatórios das empresas importa

Quando grandes empresas falam sobre seu impacto ambiental ou social, elas não publicam mais documentos em preto e branco simples. Seus relatórios de sustentabilidade estão cheios de fotos, ícones e cores fortes projetadas para chamar a atenção e moldar nossas impressões. Mas até agora não havia uma maneira grande e objetiva de medir como essas escolhas visuais são utilizadas. Este estudo apresenta um novo conjunto de dados e um sistema de medição que transformam a aparência de milhares de relatórios de sustentabilidade chineses em números concretos, ajudando pesquisadores, reguladores e cidadãos a entender melhor como as empresas se comunicam por meio do design além das palavras.

Figure 1
Figure 1.

De pilhas de relatórios a dados visuais organizados

Os autores reuniram relatórios de sustentabilidade de empresas chinesas listadas nas bolsas de Xangai e Shenzhen, usando o CNINFO, a plataforma oficial de divulgação do país. Abrangendo os anos fiscais de 2006 a 2024, a coleção captura como a comunicação de informações não financeiras na China cresceu de uma raridade para uma prática comum, especialmente após novas regras das bolsas incentivarem as empresas a relatar questões sociais e ambientais. Todos os documentos foram baixados em seu formato PDF original para preservar o layout visual. Um script automatizado em Python filtrou arquivos corrompidos, extraiu informações básicas como código de ação e ano, e organizou os relatórios em um sistema de pastas padronizado para que cada arquivo pudesse ser rastreado de forma única e confiável ao longo do tempo.

Dividindo páginas em texto, imagens e cor

Para analisar visualmente em escala, a equipe converteu cada página dos relatórios em imagens de alta resolução e usou ferramentas modernas de visão computacional para segmentar essas páginas em partes significativas. Um modelo de análise de layout identificou onde blocos de texto, imagens, tabelas, cabeçalhos e outros elementos apareciam em cada página. As regiões de texto foram encaminhadas para um sistema de reconhecimento óptico de caracteres que não apenas leu as palavras, mas também mediu características como espaçamento entre linhas, tamanho da fonte em relação à página e quantas palavras apareciam em cada linha e em cada página. As regiões de imagem foram classificadas como “abstratas” (como gráficos ou ícones) ou “realistas” (como fotografias), capturando se uma empresa se apoiava mais em visuais orientados por dados ou em narrativas emotivas baseadas em fotos. Ao mesmo tempo, uma rotina de análise de cor vasculhou cada pixel, classificando-o em uma das várias categorias de cor básicas e calculando quanto da página cada cor ocupava.

Transformando estilo visual em números

A partir desses blocos de construção, os pesquisadores definiram 18 indicadores detalhados de como cada página e cada relatório usam texto, imagens e cor — variando desde a parcela do espaço ocupada por imagens até o equilíbrio entre tons quentes e frios. Em seguida, combinaram esses indicadores em dois índices principais. O Índice de Entropia da Informação mede a complexidade visual ao observar quão variada é a paleta de cores: páginas que usam muitas cores diferentes em proporções semelhantes recebem pontuações altas, enquanto páginas simples, quase monocromáticas, recebem pontuações baixas. O Índice de Correlação de Características captura quão consistente visualmente um relatório é de página a página ao calcular quão semelhantes as páginas são entre si nesse espaço de características de 18 dimensões. Valores mais baixos significam que as páginas seguem um estilo visual estável; valores mais altos indicam que o design muda de forma mais dramática ao longo do documento.

Figure 2
Figure 2.

Verificando se os números correspondem às impressões humanas

Como o valor de qualquer índice depende de ele refletir o que as pessoas realmente veem, a equipe validou cuidadosamente suas medidas. Ajustaram e testaram seus modelos de visão computacional em milhares de páginas e imagens rotuladas manualmente, alcançando altos níveis de precisão na identificação de elementos de layout, na leitura de texto e na distinção entre diagramas abstratos e fotos realistas. Para testar os próprios índices, compararam as pontuações NFIVI com avaliações de especialistas humanos e de vários sistemas de IA convidados a julgar quão complexos e quão consistentes diferentes relatórios pareciam. Correlações fortes mostraram que pontuações de entropia mais altas realmente correspondem a layouts mais ocupados e coloridos, enquanto pontuações de correlação de características mais baixas se alinham com relatórios que parecem visualmente estáveis e unificados para olhos humanos.

O que isso significa para leitores e fiscalizadores

Em termos práticos, este trabalho cria uma espécie de “impressão digital visual” para milhares de relatórios corporativos de sustentabilidade. Permite que pesquisadores perguntem, por exemplo, se empresas sob pressão por desempenho ambiental ruim recorrem mais frequentemente a cores vibrantes e imagens brilhantes, ou se designs mais sóbrios acompanham divulgações mais confiáveis. Reguladores e grupos de fiscalização poderiam usar essas ferramentas para detectar designs potencialmente enganosos ou para monitorar como os estilos de relato mudam após a introdução de novas regras. Ao traduzir layouts de página, escolhas de imagem e paletas de cor em métricas transparentes, o conjunto de dados torna possível estudar não apenas o que as empresas dizem, mas como escolhem mostrar isso.

Citação: Li, B., Xia, B., Cheng, Z. et al. A multi-level visual representation dataset for large-scale non-financial information disclosure. Sci Data 13, 500 (2026). https://doi.org/10.1038/s41597-026-06848-6

Palavras-chave: relatórios de sustentabilidade, comunicação visual, divulgação corporativa, auditoria orientada por dados, ambiental social governança