Clear Sky Science · de
Ein mehrstufiges visuelles Repräsentationsdatensatz für groß angelegte nichtfinanzielle Offenlegung
Warum das Erscheinungsbild von Unternehmensberichten wichtig ist
Wenn große Unternehmen über ihre ökologischen oder sozialen Auswirkungen berichten, veröffentlichen sie längst keine schlichten schwarz‑weiß Dokumente mehr. Ihre Nachhaltigkeitsberichte sind voller Fotos, Symbole und kräftiger Farben, die Aufmerksamkeit erregen und Eindrücke formen sollen. Bisher gab es jedoch keine groß angelegte, objektive Methode, um zu messen, wie diese visuellen Entscheidungen eingesetzt werden. Diese Studie stellt einen neuen Datensatz und ein Messsystem vor, das das Aussehen Tausender chinesischer Nachhaltigkeitsberichte in harte Zahlen übersetzt und Forschern, Aufsichtsbehörden und Bürgern hilft, besser zu verstehen, wie Unternehmen durch Gestaltung sowie durch Worte kommunizieren.

Von Bergen von Berichten zu strukturierten visuellen Daten
Die Autorinnen und Autoren sammelten Nachhaltigkeitsberichte chinesischer Gesellschaften, die an den Börsen in Shanghai und Shenzhen notiert sind, über CNINFO, die offizielle Offenlegungsplattform des Landes. Die Sammlung umfasst Geschäftsjahre von 2006 bis 2024 und bildet ab, wie sich die nichtfinanzielle Berichterstattung in China von einer Seltenheit zu einer gängigen Praxis entwickelt hat — insbesondere nachdem neue Börsenregeln Unternehmen ermunterten, über soziale und ökologische Themen zu berichten. Alle Dokumente wurden im originalen PDF‑Format heruntergeladen, um ihr visuelles Layout zu bewahren. Ein automatisches Python‑Skript filterte fehlerhafte Dateien heraus, extrahierte Basisinformationen wie Aktiencode und Jahr und ordnete die Berichte in ein standardisiertes Ordnersystem, sodass jede Datei eindeutig und verlässlich über die Zeit verfolgt werden kann.
Seiten in Text, Bilder und Farbe zerlegen
Um Visuals in großem Umfang zu analysieren, konvertierte das Team jede Berichtsseite in hochauflösende Bilder und nutzte moderne Computer‑Vision‑Werkzeuge, um diese Seiten in sinnvolle Teile zu zerlegen. Ein Layout‑Analysemodell identifizierte, wo Textblöcke, Bilder, Tabellen, Kopfzeilen und andere Elemente auf jeder Seite erscheinen. Textregionen wurden einem OCR‑System zugeführt, das nicht nur die Wörter las, sondern auch Merkmale wie Zeilenabstand, Schriftgröße relativ zur Seite und wie viele Wörter in jeder Zeile und auf jeder Seite vorkommen, maß. Bildregionen wurden entweder als „abstrakt“ (beispielsweise Diagramme oder Symbole) oder als „realistisch“ (etwa Fotografien) klassifiziert, wodurch erfasst wurde, ob ein Unternehmen eher auf datengetriebene Visualisierungen oder auf emotionale, fotoorientierte Erzählung setzt. Gleichzeitig analysierte ein Farbscan‑Routine jedes Pixel, ordnete es einer von mehreren Grundfarbkategorien zu und berechnete, wie viel Raum jede Farbe auf der Seite einnahm.
Visuellen Stil in Zahlen verwandeln
Aus diesen Bausteinen definierten die Forschenden 18 detaillierte Indikatoren dafür, wie jede Seite und jeder Bericht Text, Bilder und Farbe verwendet — von dem Anteil der von Bildern eingenommenen Fläche bis hin zum Verhältnis von warmen zu kühlen Farbtönen. Diese Indikatoren kombinierten sie dann zu zwei Schlüsselindizes. Der Information‑Entropy‑Index misst die visuelle Komplexität, indem er untersucht, wie vielfältig die Farbpalette ist: Seiten, die viele verschiedene Farben in ähnlichen Anteilen verwenden, erhalten hohe Werte, während einfache, nahezu monochrome Seiten niedrig bewertet werden. Der Feature‑Correlation‑Index erfasst, wie visuell konsistent ein Bericht von Seite zu Seite ist, indem berechnet wird, wie ähnlich sich die Seiten in diesem 18‑dimensionalen Merkmalsraum sind. Niedrige Werte bedeuten, dass die Seiten einem gleichbleibenden visuellen Stil folgen; höhere Werte deuten darauf hin, dass sich das Design im Dokument stärker verändert.

Überprüfen, ob die Zahlen mit menschlichen Eindrücken übereinstimmen
Da der Wert eines Index davon abhängt, ob er widerspiegelt, was Menschen tatsächlich wahrnehmen, validierte das Team seine Messgrößen sorgfältig. Sie feinjustierten und testeten ihre Computer‑Vision‑Modelle an Tausenden manuell beschrifteter Seiten und Bilder und erreichten hohe Genauigkeiten bei der Identifikation von Layout‑Elementen, dem Erfassen von Text und der Unterscheidung abstrakter Diagramme von realistischen Fotos. Um die neuen Indizes selbst zu prüfen, verglichen sie NFIVI‑Werte mit Bewertungen durch menschliche Expertinnen und Experten sowie mehreren KI‑Systemen, die gebeten wurden, Komplexität und Konsistenz verschiedener Berichte einzuschätzen. Starke Korrelationen zeigten, dass höhere Entropiewerte tatsächlich mit unruhigeren, farbenreicheren Layouts korrespondieren, während niedrigere Feature‑Correlation‑Werte mit Berichten übereinstimmen, die für menschliche Betrachter visuell gleichmäßig und einheitlich erscheinen.
Was das für Leserinnen, Leser und Aufseher bedeutet
Alltagssprachlich schafft diese Arbeit eine Art „visuellen Fingerabdruck“ für Tausende von Unternehmens‑Nachhaltigkeitsberichten. Sie ermöglicht es Forschenden beispielsweise zu untersuchen, ob Unternehmen, die wegen schlechter Umweltleistungen unter Druck stehen, stärker auf grelle Farben und glänzende Bilder setzen oder ob nüchternere Designs mit vertrauenswürdigeren Offenlegungen einhergehen. Regulierungsbehörden und Überwachungsgruppen könnten diese Werkzeuge nutzen, um potenziell irreführende Designs zu identifizieren oder zu beobachten, wie sich Reporting‑Stile nach Einführung neuer Regeln verändern. Indem Seitenlayouts, Bildauswahl und Farbschemata in transparente Metriken übersetzt werden, macht der Datensatz Untersuchungen möglich, die sich nicht nur darauf konzentrieren, was Unternehmen sagen, sondern auch darauf, wie sie es zu zeigen wählen.
Zitation: Li, B., Xia, B., Cheng, Z. et al. A multi-level visual representation dataset for large-scale non-financial information disclosure. Sci Data 13, 500 (2026). https://doi.org/10.1038/s41597-026-06848-6
Schlüsselwörter: Nachhaltigkeitsberichterstattung, visuelle Kommunikation, Unternehmensberichterstattung, datengetriebene Prüfung, Umwelt Soziales Governance