Clear Sky Science · ja
大規模な非財務情報開示のための多層ビジュアル表現データセット
企業レポートの見た目が重要な理由
大手企業が環境や社会への影響について報告する際、もはや白黒の簡素な文書を出すだけではありません。サステナビリティ報告書には写真やアイコン、目を引く鮮やかな色使いがあふれ、受け手の印象を形成するようデザインされています。しかし、これらの視覚的選択がどのように用いられているかを大規模かつ客観的に測る方法はこれまで存在しませんでした。本研究は新たなデータセットと測定システムを導入し、中国語のサステナビリティ報告書数千件の「見た目」を数値化します。これにより研究者、規制当局、市民が、企業が言葉だけでなくデザインを通じてどう伝えているかをよりよく理解できるようになります。

山のような報告書から整理されたビジュアルデータへ
著者らは、上海・深センの証券取引所に上場する中国企業のサステナビリティ報告書を、国内の公式開示プラットフォームであるCNINFOから収集しました。2006年から2024年の会計年度をカバーするこのコレクションは、中国における非財務報告が稀な存在から一般的な慣行へと成長した過程を捉えています。特に取引所ルールの改正で社会・環境事項の報告が促進された後に著しく増加しました。すべての文書は視覚レイアウトを保つために元のPDF形式でダウンロードされました。自動化したPythonスクリプトで破損ファイルを除外し、証券コードや年度などの基本情報を抽出して、各ファイルが時系列で一意かつ確実に追跡可能な標準化フォルダ構成に整理しました。
ページをテキスト、画像、色に分解する
大規模なビジュアル解析のために、チームは各報告書のすべてのページを高解像度画像に変換し、最新のコンピュータビジョンツールでページを意味ある要素に分割しました。レイアウト解析モデルは各ページでテキストブロック、画像、表、見出しなどがどこにあるかを特定しました。テキスト領域は光学式文字認識(OCR)にかけられ、単に文字を読み取るだけでなく、行間、ページに対するフォントサイズの比率、各行や各ページに含まれる語数といった特徴も測定しました。画像領域は「抽象的」(グラフやアイコンなど)か「写実的」(写真など)かに分類され、企業がデータ重視の図表に頼るのか、感情に訴える写真中心の語り口に傾くのかを捉えました。同時に、色解析ルーチンが全ピクセルを走査し、基本的な色カテゴリのいずれかに分類して、各色がページのどの程度を占めているかを算出しました。
ビジュアルスタイルを数値に変える
これらの構成要素から、研究者らは各ページおよび各報告書がテキスト、画像、色をどのように使用しているかを示す18の詳細な指標を定義しました。指標は画像が占める面積の割合から、暖色と寒色のバランスまで多岐にわたります。次にこれらの指標を2つの主要な指数に統合しました。情報エントロピー指数はカラーパレットの多様性を見て視覚的な複雑さを測ります。多くの異なる色をほぼ同等の割合で使うページは高得点を得て、単純でほぼ単色のページは低得点になります。特徴相関指数は、18次元の特徴空間におけるページ間の類似度を計算することで、報告書全体の視覚的一貫性をとらえます。値が低いほどページの見た目が安定していることを示し、高いほど文書内でデザインが大きく変化していることを意味します。

数値が人間の印象と一致するか検証する
いかなる指数の価値も、人々が実際に見るものをどれだけ反映しているかに依存するため、チームは測定を慎重に検証しました。彼らはコンピュータビジョンモデルを数千ページ・画像の手動ラベルで微調整・テストし、レイアウト要素の特定、テキスト読み取り、抽象図と写実写真の識別で高い精度を達成しました。新しい指数そのものの検証では、NFIVIスコアを人間の専門家と、複数のAIシステムによる「どれだけ複雑か」「どれだけ一貫しているか」の評価と比較しました。強い相関が示され、エントロピースコアが高いほど実際により賑やかで色彩豊かなレイアウトに対応し、特徴相関スコアが低いほど人間の目には視覚的に安定・統一されていると感じられることが確認されました。
読者と監視者にとっての意義
日常的な観点から見ると、本研究は何千もの企業サステナビリティ報告書に対する一種の「視覚的フィンガープリント」を作り出します。たとえば、環境パフォーマンスが低いと批判されている企業が、より華やかな色彩や光沢のある画像に頼る傾向があるのか、あるいは落ち着いたデザインのほうが信頼できる開示に伴うのか、といった問いを研究者が問えるようになります。規制当局や監視団体は、こうしたツールを使って誤解を招きやすいデザインを見つけたり、新たなルール導入後に報告スタイルがどう変化するかを監視したりできます。ページレイアウト、画像選択、配色を透明な指標に変換することで、このデータセットは企業が何を言うかに加えて、どう見せるかを研究する可能性を広げます。
引用: Li, B., Xia, B., Cheng, Z. et al. A multi-level visual representation dataset for large-scale non-financial information disclosure. Sci Data 13, 500 (2026). https://doi.org/10.1038/s41597-026-06848-6
キーワード: サステナビリティ報告, ビジュアルコミュニケーション, 企業開示, データ駆動の監査, 環境・社会・ガバナンス