Clear Sky Science · fr
Un ensemble de données de représentation visuelle à plusieurs niveaux pour la divulgation d’informations non financières à grande échelle
Pourquoi l’apparence des rapports d’entreprise compte
Quand les grandes entreprises évoquent leur impact environnemental ou social, elles n’éditent plus des documents en noir et blanc. Leurs rapports de durabilité regorgent de photos, d’icônes et de couleurs vives conçues pour attirer l’attention et orienter notre perception. Mais jusqu’à présent, il n’existait pas de méthode objective et à grande échelle pour mesurer l’usage de ces choix visuels. Cette étude présente un nouvel ensemble de données et un système de mesure qui transforment l’apparence de milliers de rapports de durabilité chinois en chiffres concrets, aidant chercheurs, régulateurs et citoyens à mieux comprendre comment les entreprises communiquent par le design autant que par les mots.

De tas de rapports à des données visuelles organisées
Les auteurs ont rassemblé des rapports de durabilité d’entreprises chinoises cotées sur les bourses de Shanghai et de Shenzhen, en utilisant CNINFO, la plateforme officielle de divulgation du pays. Couvre les exercices 2006 à 2024, la collection reflète comment le reporting non financier en Chine est passé d’une rareté à une pratique courante, notamment après que de nouvelles règles boursières ont encouragé les entreprises à rendre compte des enjeux sociaux et environnementaux. Tous les documents ont été téléchargés au format PDF original afin de préserver leur mise en page visuelle. Un script Python automatisé a éliminé les fichiers corrompus, extrait des informations de base comme le code boursier et l’année, et organisé les rapports dans un système de dossiers standardisé pour que chaque fichier puisse être suivi de façon unique et fiable au fil du temps.
Découper les pages en texte, images et couleurs
Pour analyser les visuels à grande échelle, l’équipe a converti chaque page de rapport en images haute résolution puis a utilisé des outils modernes de vision par ordinateur pour décomposer ces pages en parties signifiantes. Un modèle d’analyse de mise en page a identifié où apparaissaient blocs de texte, images, tableaux, en-têtes et autres éléments sur chaque page. Les zones de texte ont été traitées par un système de reconnaissance optique de caractères qui non seulement lisait les mots, mais mesurait aussi des caractéristiques telles que l’interligne, la taille de police relative à la page et le nombre de mots par ligne et par page. Les régions d’image ont été classées en « abstraites » (par exemple graphiques ou icônes) ou « réalistes » (par exemple photographies), ce qui permet de saisir si une entreprise mise davantage sur des visuels axés sur les données ou sur des récits émotionnels illustrés par des photos. Parallèlement, une routine d’analyse des couleurs a scanné chaque pixel, l’a trié dans l’une de plusieurs catégories de couleurs de base et a calculé la part de la page occupée par chaque couleur.
Transformer le style visuel en nombres
À partir de ces éléments, les chercheurs ont défini 18 indicateurs détaillés sur la façon dont chaque page et chaque rapport utilisent texte, images et couleur — allant de la part d’espace occupée par les images à l’équilibre entre tons chauds et tons froids. Ils ont ensuite combiné ces indicateurs en deux indices clés. L’indice d’entropie de l’information mesure la complexité visuelle en examinant la diversité de la palette de couleurs : les pages qui utilisent de nombreuses couleurs différentes en proportions semblables obtiennent des scores élevés, tandis que les pages simples, quasi monochromes, obtiennent des scores faibles. L’indice de corrélation de caractéristiques capture la cohérence visuelle d’un rapport d’une page à l’autre en calculant la similarité des pages dans cet espace de caractéristiques à 18 dimensions. Des valeurs basses signifient que les pages suivent un style visuel stable ; des valeurs élevées indiquent que le design varie fortement au fil du document.

Vérifier que les chiffres correspondent aux impressions humaines
Parce que la valeur d’un indice dépend de sa capacité à refléter ce que les gens perçoivent réellement, l’équipe a soigneusement validé ses mesures. Ils ont affiné et testé leurs modèles de vision par ordinateur sur des milliers de pages et d’images étiquetées manuellement, atteignant des niveaux élevés de précision pour l’identification des éléments de mise en page, la lecture de texte et la distinction entre schémas abstraits et photos réalistes. Pour tester les nouveaux indices eux-mêmes, ils ont comparé les scores NFIVI à des évaluations d’experts humains et de plusieurs systèmes d’IA chargés de juger la complexité et la cohérence visuelle de différents rapports. De fortes corrélations ont montré que des scores d’entropie plus élevés correspondent vraiment à des mises en page plus chargées et plus colorées, tandis que des scores de corrélation de caractéristiques plus bas s’alignent avec des rapports qui paraissent visuellement stables et unifiés aux yeux des humains.
Ce que cela implique pour les lecteurs et les observateurs
Concrètement, ce travail crée une sorte « d’empreinte visuelle » pour des milliers de rapports de durabilité d’entreprise. Il permet aux chercheurs de poser, par exemple, la question de savoir si les entreprises sous pression pour de faibles performances environnementales misent davantage sur des couleurs vives et des images brillantes, ou si des designs plus sobres accompagnent des divulgations plus fiables. Les régulateurs et les groupes de surveillance pourraient utiliser ces outils pour repérer des mises en page potentiellement trompeuses ou pour suivre l’évolution des styles de reporting après l’introduction de nouvelles règles. En traduisant les mises en page, les choix d’images et les schémas de couleurs en métriques transparentes, l’ensemble de données permet d’étudier non seulement ce que les entreprises disent, mais aussi comment elles choisissent de le montrer.
Citation: Li, B., Xia, B., Cheng, Z. et al. A multi-level visual representation dataset for large-scale non-financial information disclosure. Sci Data 13, 500 (2026). https://doi.org/10.1038/s41597-026-06848-6
Mots-clés: reporting sur la durabilité, communication visuelle, divulgation d’entreprise, audit fondé sur les données, environnement social gouvernance