Clear Sky Science · pl
Wielopoziomowy zestaw danych wizualnych do analizy dużej skali ujawnień informacji pozafinansowych
Dlaczego wygląd raportów firm ma znaczenie
Gdy duże firmy mówią o swoim wpływie na środowisko lub społeczeństwo, już nie publikują prostych, czarno‑białych dokumentów. Ich raporty zrównoważonego rozwoju pełne są zdjęć, ikon i wyrazistych kolorów zaprojektowanych tak, by przyciągać wzrok i kształtować nasze wrażenia. Do tej pory brakowało jednak dużego, obiektywnego sposobu na zmierzenie, jak te decyzje wizualne są stosowane. Niniejsze badanie przedstawia nowy zestaw danych i system pomiarowy, który zamienia wygląd tysięcy chińskich raportów zrównoważonego rozwoju na twarde liczby, pomagając badaczom, regulatorom i obywatelom lepiej zrozumieć, jak firmy komunikują się przez projektowanie, a nie tylko słowa.

Od stert raportów do uporządkowanych danych wizualnych
Autorzy zgromadzili raporty zrównoważonego rozwoju chińskich spółek notowanych na giełdach w Szanghaju i Shenzhen, korzystając z CNINFO, krajowej platformy do ujawnień informacji. Zbiór obejmuje lata fiskalne 2006–2024 i odzwierciedla, jak raportowanie pozafinansowe w Chinach przekształciło się z rzadkości w powszechną praktykę, zwłaszcza po wprowadzeniu nowych reguł giełdowych zachęcających firmy do raportowania kwestii społecznych i środowiskowych. Wszystkie dokumenty pobrano w oryginalnym formacie PDF, aby zachować układ wizualny. Zautomatyzowany skrypt w Pythonie odfiltrował uszkodzone pliki, wyodrębnił podstawowe informacje, takie jak kod giełdowy i rok, oraz uporządkował raporty w ustandaryzowanym systemie folderów, tak aby każdy plik mógł być unikatowo i niezawodnie śledzony w czasie.
Rozbijanie stron na tekst, obrazy i kolory
Aby analizować elementy wizualne na dużą skalę, zespół przekonwertował każdą stronę raportu na obrazy o wysokiej rozdzielczości, a następnie użył nowoczesnych narzędzi widzenia komputerowego do podzielenia stron na sensowne części. Model analizy układu zidentyfikował, gdzie na każdej stronie pojawiają się bloki tekstu, obrazy, tabele, nagłówki i inne elementy. Obszary tekstowe poddano systemowi optycznego rozpoznawania znaków, który nie tylko odczytał słowa, lecz także zmierzył cechy takie jak odstępy między wierszami, rozmiar czcionki względem strony oraz ile słów występowało w każdym wierszu i na każdej stronie. Obszary obrazów sklasyfikowano jako „abstrakcyjne” (np. wykresy lub ikony) lub „realistyczne” (np. fotografie), co pozwoliło uchwycić, czy firma bardziej opiera się na wizualizacjach danych, czy na emocjonalnej narracji fotograficznej. Równocześnie procedura analizy kolorów zeskanowała każdy piksel, przyporządkowując go do jednej z kilku podstawowych kategorii kolorystycznych i obliczając, jaki udział strony zajmuje każdy kolor.
Przekształcanie stylu wizualnego w liczby
Z tych elementów badacze zdefiniowali 18 szczegółowych wskaźników opisujących, jak każda strona i każdy raport wykorzystuje tekst, obrazy i kolor — od udziału przestrzeni zajętej przez ilustracje, po równowagę między tonami ciepłymi a chłodnymi. Następnie połączyli te wskaźniki w dwa kluczowe indeksy. Indeks Entropii Informacji mierzy złożoność wizualną, badając, jak urozmaicona jest paleta kolorów: strony używające wielu różnych kolorów w podobnych proporcjach otrzymują wysokie wyniki, podczas gdy proste, niemal monochromatyczne strony wypadają nisko. Indeks Korelacji Cech oddaje, jak wizualnie spójny jest raport strona po stronie, obliczając, jak podobne są do siebie strony w tej 18‑wymiarowej przestrzeni cech. Niższe wartości oznaczają, że strony zachowują stały styl wizualny; wyższe — że projekt zmienia się bardziej dramatycznie w całym dokumencie.

Weryfikacja, czy liczby odpowiadają ludzkim wrażeniom
Ponieważ wartość każdego indeksu zależy od tego, czy odzwierciedla to, co ludzie rzeczywiście widzą, zespół starannie zwalidował swoje miary. Dopracowali i przetestowali modele widzenia komputerowego na tysiącach ręcznie oznakowanych stron i obrazów, osiągając wysoką dokładność w identyfikacji elementów układu, odczycie tekstu oraz rozróżnianiu diagramów abstrakcyjnych od realistycznych fotografii. Aby przetestować nowe indeksy, porównali oceny NFIVI z ocenami ekspertów ludzkich oraz kilku systemów AI poproszonych o ocenę, jak skomplikowane i jak spójne wizualnie wydają się różne raporty. Silne korelacje wykazały, że wyższe wyniki entropii rzeczywiście odpowiadają bardziej zatłoczonym, kolorowym układom, natomiast niższe wartości korelacji cech zgadzają się z raportami, które dla oka ludzkiego wydają się wizualnie stabilne i jednolite.
Co to oznacza dla czytelników i nadzorców
Mówiąc prościej, praca ta tworzy rodzaj „wizualnego odcisku palca” dla tysięcy korporacyjnych raportów zrównoważonego rozwoju. Pozwala badaczom zadawać pytania, na przykład, czy firmy pod presją z powodu słabych wyników środowiskowych częściej polegają na jaskrawych kolorach i błyszczących obrazach, albo czy bardziej stonowane projekty towarzyszą bardziej wiarygodnym ujawnieniom. Regulatorzy i organizacje nadzorcze mogłyby używać tych narzędzi do wykrywania potencjalnie wprowadzających w błąd projektów lub do monitorowania, jak style raportowania zmieniają się po wprowadzeniu nowych przepisów. Przez przełożenie układów stron, wyborów obrazów i schematów kolorystycznych na przejrzyste miary, zestaw danych umożliwia badanie nie tylko tego, co firmy mówią, ale też tego, jak decydują się to pokazać.
Cytowanie: Li, B., Xia, B., Cheng, Z. et al. A multi-level visual representation dataset for large-scale non-financial information disclosure. Sci Data 13, 500 (2026). https://doi.org/10.1038/s41597-026-06848-6
Słowa kluczowe: raportowanie zrównoważonego rozwoju, komunikacja wizualna, ujawnianie informacji korporacyjnych, audyt oparty na danych, środowiskowe społeczne zarządzanie