Clear Sky Science · zh

用于大规模非财务信息披露的多层次视觉表示数据集

· 返回目录

公司报告外观为何重要

当大型公司谈论其环境或社会影响时,不再只是发布黑白文本文件。它们的可持续性报告充斥着照片、图标和醒目的色彩,旨在吸引注意力并塑造读者印象。但直到现在,还没有一个大规模、客观的方法来衡量这些视觉选择的使用情况。本研究引入了一个新的数据集和度量体系,将数千份中文可持续性报告的视觉风格转化为可量化的数据,帮助研究人员、监管者和公众更好地理解公司如何通过设计而非仅仅文字来传达信息。

Figure 1
Figure 1.

从一堆报告到有序的视觉数据

作者收集了在上海和深圳证券交易所上市的中国公司的可持续性报告,数据来源为国家法定信息披露平台——巨潮资讯(CNINFO)。覆盖2006到2024财政年度的样本反映了中国非财务报告从罕见到普遍的演变,尤其是在新的交易所规则鼓励企业披露社会和环境议题之后。所有文档均以原始PDF格式下载,以保留其视觉布局。一个自动化的Python脚本筛除了损坏文件,提取了诸如股票代码和年份等基本信息,并将报告组织到标准化的文件夹系统中,确保每个文件都可以唯一且可靠地随时间跟踪。

将页面拆解为文本、图像与颜色

为了对视觉内容进行大规模分析,团队将每份报告的页面转换为高分辨率图像,然后使用现代计算机视觉工具将这些页面拆分为有意义的组成部分。布局分析模型识别出每页中文本块、图片、表格、标题及其他元素的位置。文本区域被送入光学字符识别系统,不仅识别文字,还测量诸如行距、相对于页面的字体大小以及每行与每页的单词数等特征。图像区域被分类为“抽象”(如图表或图标)或“写实”(如照片),以捕捉公司是更依赖数据驱动的视觉表现还是更倾向于情感化的照片叙事。同时,颜色分析程序扫描每一个像素,将其归入若干基本颜色类别,并计算每种颜色在页面上所占的比例。

把视觉风格转成数字

基于这些构件,研究者定义了18项详细指标,用以描述每页和每份报告在文本、图像与颜色方面的使用情况——从图片占据的空间份额到暖色与冷色之间的平衡。随后,他们将这些指标合并为两个关键指数。信息熵指数通过观察颜色调色板的多样性来衡量视觉复杂性:使用多种颜色且比例相近的页面得分较高,而简单、近乎单色的页面得分较低。特征相关性指数则通过在这18维特征空间中计算各页之间的相似度,捕捉报告在页与页之间的视觉一致性。较低的值表示页面遵循稳定的视觉风格;较高的值则表示整份文档在设计上变化更大。

Figure 2
Figure 2.

验证这些数字是否符合人类印象

由于任何指数的价值取决于它是否反映人们实际的视觉感受,团队对其度量进行了细致验证。他们在数千页手工标注的页面和图像上微调并测试了计算机视觉模型,在识别布局元素、识别文本以及区分抽象图示与写实照片方面达到了较高准确率。为检验新指数本身,他们将NFIVI得分与人类专家及若干被要求评判报告复杂度和一致性的AI系统的评分进行了比较。强相关性表明,更高的信息熵得分确实对应更为繁复、色彩更丰富的版面,而较低的特征相关性得分则与人眼所感知的视觉稳定、统一的报告相吻合。

对读者与监督者的意义

通俗来说,这项工作为数千份公司可持续性报告创建了一种“视觉指纹”。它使研究者能够提出诸如:在面临环境绩效压力的公司是否更倾向于使用亮色和光鲜图像,抑或更为朴素的设计是否与更可信的披露相关等问题。监管机构和监督组织可以利用这些工具发现潜在误导性的设计,或监测在新规则出台后报告风格的变化。通过将页面布局、图片选择和配色方案转化为透明的度量,该数据集使得研究不仅限于公司说了什么,也能探讨它们选择如何展示这些内容。

引用: Li, B., Xia, B., Cheng, Z. et al. A multi-level visual representation dataset for large-scale non-financial information disclosure. Sci Data 13, 500 (2026). https://doi.org/10.1038/s41597-026-06848-6

关键词: 可持续性报告, 视觉传播, 公司披露, 数据驱动审计, 环境 社会 治理