Clear Sky Science · it

Un dataset di rappresentazioni visive multilivello per la divulgazione su larga scala di informazioni non finanziarie

· Torna all'indice

Perché l’aspetto dei report aziendali conta

Quando le grandi aziende parlano del loro impatto ambientale o sociale, non pubblicano più documenti in bianco e nero. I loro report di sostenibilità sono pieni di fotografie, icone e colori sgargianti pensati per attirare l’attenzione e orientare le impressioni. Fino ad oggi però non esisteva un modo oggettivo e su larga scala per misurare come queste scelte visive vengano impiegate. Questo studio presenta un nuovo dataset e un sistema di misurazione che trasformano l’aspetto di migliaia di report di sostenibilità cinesi in numeri concreti, aiutando ricercatori, regolatori e cittadini a comprendere meglio come le aziende comunicano attraverso il design oltre che con le parole.

Figure 1
Figure 1.

Dai cumuli di report a dati visivi organizzati

Gli autori hanno raccolto i report di sostenibilità di società cinesi quotate nelle borse di Shanghai e Shenzhen, utilizzando CNINFO, la piattaforma ufficiale di divulgazione del paese. Coprendo gli anni fiscali dal 2006 al 2024, la collezione documenta come il reporting non finanziario in Cina sia passato da fenomeno raro a pratica diffusa, specialmente dopo che nuove regole delle borse hanno incentivato le imprese a rendicontare questioni sociali e ambientali. Tutti i documenti sono stati scaricati in formato PDF originale per preservarne il layout visivo. Uno script Python automatizzato ha filtrato i file corrotti, estratto informazioni di base come codice azionario e anno, e organizzato i report in un sistema di cartelle standardizzato in modo che ogni file potesse essere tracciato in modo univoco e affidabile nel tempo.

Dividere le pagine in testo, immagini e colore

Per analizzare i materiali visivi su larga scala, il team ha convertito ogni pagina dei report in immagini ad alta risoluzione e poi ha utilizzato strumenti di computer vision moderni per scomporre queste pagine in parti significative. Un modello di analisi del layout ha identificato dove comparivano blocchi di testo, immagini, tabelle, intestazioni e altri elementi su ciascuna pagina. Le regioni testuali sono state elaborate con un sistema di riconoscimento ottico dei caratteri che non solo ha letto le parole, ma ha anche misurato caratteristiche come l’interlinea, la dimensione del font rispetto alla pagina e il numero di parole per riga e per pagina. Le regioni immagine sono state classificate come “astratte” (per esempio grafici o icone) o “realistiche” (per esempio fotografie), catturando se un’azienda facesse più affidamento su elementi visivi basati sui dati o su narrazioni emotive supportate da foto. Parallelamente, una procedura di analisi del colore ha scandagliato ogni pixel, assegnandolo a una delle categorie di colore di base e calcolando quanto spazio della pagina ciascun colore occupasse.

Trasformare lo stile visivo in numeri

Da questi mattoni informativi, i ricercatori hanno definito 18 indicatori dettagliati su come ogni pagina e ogni report utilizzi testo, immagini e colore—dalla percentuale di spazio occupata dalle immagini all’equilibrio tra toni caldi e freddi. Hanno poi combinato questi indicatori in due indici chiave. L’Indice di Entropia dell’Informazione misura la complessità visiva osservando quanto è variegata la palette di colori: le pagine che usano molti colori diversi in proporzioni simili ottengono punteggi alti, mentre le pagine semplici e quasi monocromatiche ottengono punteggi bassi. L’Indice di Correlazione delle Caratteristiche cattura quanto un report sia visivamente coerente da una pagina all’altra calcolando la somiglianza tra le pagine in questo spazio delle caratteristiche a 18 dimensioni. Valori più bassi indicano che le pagine seguono uno stile visivo costante; valori più alti indicano cambiamenti di design più marcati nel documento.

Figure 2
Figure 2.

Verificare che i numeri corrispondano all’impressione umana

Poiché il valore di ogni indice dipende dal riflettere ciò che le persone effettivamente vedono, il team ha convalidato attentamente le proprie misure. Ha messo a punto e testato i modelli di computer vision su migliaia di pagine e immagini annotate manualmente, raggiungendo alti livelli di accuratezza nell’identificare gli elementi di layout, nel leggere il testo e nel distinguere diagrammi astratti da foto realistiche. Per testare i nuovi indici, hanno confrontato i punteggi NFIVI con le valutazioni di esperti umani e di diversi sistemi di intelligenza artificiale incaricati di giudicare quanto diversi report apparissero complessi e coerenti. Forti correlazioni hanno mostrato che punteggi di entropia più alti corrispondono effettivamente a layout più ricchi e colorati, mentre punteggi di correlazione delle caratteristiche più bassi si allineano con report che appaiono visivamente stabili e unificati all’occhio umano.

Cosa significa per lettori e vigilanza

In termini pratici, questo lavoro crea una sorta di “impronta visiva” per migliaia di report di sostenibilità aziendale. Permette ai ricercatori di chiedersi, per esempio, se le imprese sotto pressione per scarse prestazioni ambientali facciano più uso di colori vivaci e immagini patinate, o se design più sobri accompagnino divulgazioni più affidabili. Regolatori e gruppi di controllo potrebbero usare questi strumenti per individuare design potenzialmente fuorvianti o per monitorare come gli stili di reporting cambiano dopo l’introduzione di nuove regole. Traducendo layout di pagina, scelte di immagini e schemi cromatici in metriche trasparenti, il dataset rende possibile studiare non solo ciò che le aziende dicono, ma anche come scelgono di mostrarlo.

Citazione: Li, B., Xia, B., Cheng, Z. et al. A multi-level visual representation dataset for large-scale non-financial information disclosure. Sci Data 13, 500 (2026). https://doi.org/10.1038/s41597-026-06848-6

Parole chiave: reportistica di sostenibilità, comunicazione visiva, divulgazione aziendale, audit basati sui dati, governance ambientale sociale