Clear Sky Science · he
מערכת נתונים רב־שכבתית לייצוג חזותי עבור גילוי מידע לא־פיננסי בקנה מידה גדול
מדוע המראה של דוחות חברות חשוב
כאשר חברות גדולות מדברות על ההשפעה הסביבתית או החברתית שלהן, הן כבר לא מפרסמות מסמכים שחור‑לבן פשוטים. דוחות הקיימות שלהן מלאים בתמונות, אייקונים וצבעים בולטים שתוכננו לתפוס את העין ולעצב את הרושם שלנו. אך עד כה לא הייתה דרך אובייקטיבית ומקיפה למדוד כיצד נעשה שימוש בבחירות חזותיות אלה. מחקר זה מציג מערכת נתונים ושיטת מדידה חדשה שהופכת את המראה והתחושה של אלפי דוחות קיימות סיניים למספרים מוצקים, ומסייע לחוקרים, לרגולטורים ולאזרחים להבין טוב יותר כיצד חברות מתקשרות בעיצוב כמו גם במילים.

מערמות דוחות לנתונים חזותיים מאורגנים
המחברים אספו דוחות קיימות של חברות סיניות הנסחרות בבורסות שנחאי ושנזן, באמצעות CNINFO, פלטפורמת הגילוי הרשמית של המדינה. תוך כיסוי שנות כספים 2006–2024, האוסף מתעד כיצד הדיווח הלא‑פיננסי בסין התפתח מהיותו נדיר לפרקטיקה שכיחה, בעיקר לאחר שחוקים חדשים בבורסה עודדו חברות לדווח על סוגיות חברתיות וסביבתיות. כל המסמכים הורדו בפורמט ה‑PDF המקורי שלהם כדי לשמר את המאפיינים הוויזואליים. סקריפט אוטומטי ב‑Python סינן קבצים פגומים, חילץ מידע בסיסי כמו קוד מניה ושנה, וארגן את הדוחות במערכת תיקיות סטנדרטית כך שכל קובץ יוכל להיות מאובטח וממוספר לאורך זמן.
פיצול דפים לטקסט, תמונות וצבע
כדי לנתח חזותיות בקנה מידה גדול, הצוות המיר כל עמוד דוח לתמונות ברזולוציה גבוהה ואז השתמש בכלי ראייה ממוחשבת מתקדמים כדי לפצל את העמודים לחלקים משמעותיים. מודל לניתוח פריסת הדף זיהה היכן הופיעו בלוקי טקסט, תמונות, טבלאות, כותרות ואלמנטים אחרים בכל עמוד. אזורי הטקסט הוזנו למערכת OCR שלא רק קרתה את המילים אלא גם מדדה תכונות כגון ריווח שורות, גודל גופן ביחס לעמוד וכמה מילים הופיעו בכל שורה ובכל עמוד. אזורי התמונה סווגו כ"מופשטים" (כגון גרפים או אייקונים) או כ"ריאליסטיים" (כגון צילום), ובכך תועד האם החברה נטתה יותר לחזותיים מבוססי נתונים או לסיפורים רגשיים מבוססי צילום. במקביל, שגרה לניתוח צבע איתרה כל פיקסל, מיינה אותו לאחת מכמה קטגוריות צבע בסיסיות וחישבה כמה מכל צבע תופס מכלל העמוד.
הפיכת סגנון חזותי למספרים
מהאבנים הבונות הללו, החוקרים הגדירו 18 אינדיקטורים מפורטים המתארים כיצד כל עמוד וכל דוח משתמש בטקסט, בתמונות ובצבע — החל משיעור החלל שתופסות תמונות ועד לאיזון בין טונים חמים לקרים. לאחר מכן שילבו אינדיקטורים אלה לשני מדדים מרכזיים. מדד האנתרופיה של המידע מודד את המורכבות החזותית על‑ידי בחינת מגוון פלטת הצבעים: עמודים שמשתמשים בהרבה צבעים שונים בחלוקות דומות מקבלים ציונים גבוהים, בעוד דפים פשוטים, כמעט חד־גוניים, מדורגים נמוך. מדד המתאם התכונתי תופס עד כמה הדוח עקבי חזותית מעמוד לעמוד על‑ידי חישוב הדמיון בין העמודים במרחב התכונות התלת־עשירי הזה. ערכים נמוכים מצביעים על סגנון חזותי קבוע; ערכים גבוהים מעידים על שינויים עיצוביים דרמטיים יותר לאורך המסמך.

בדיקה שהמספרים מתאימים להרשמות האנושיות
מכיוון שערך כל מדד תלוי בכך שהוא משקף את מה שאנשים באמת רואים, הצוות אימת בקפידה את המדידות. הם כיולו ובדקו את מודלי הראייה הממוחשבת שלהם על אלפי דפים ותמונות שסומנו ידנית, והגיעו לרמות דיוק גבוהות בזיהוי אלמנטים פריסתיים, בקריאת טקסט, ובהבחנה בין דיאגרמות מופשטות לצילומים מציאותיים. כדי לבדוק את המדדים החדשים עצמם השוו את ציוני NFIVI עם דירוגים של מומחים אנושיים וכמה מערכות בינה מלאכותית שהתבקשו לשפוט עד כמה דוחות שונים נראים מורכבים ועקביים. מתאמים חזקים הראו כי ציוני אנתרופיה גבוהים אכן מתאימים לפריסות עמוסות וצבעוניות יותר, בעוד ציוני מתאם תכונתי נמוכים מתיישבים עם דוחות שמרשימים כיציבים ומאוחדים מבחינה חזותית לעיני בני אדם.
מה משמעות הדבר עבור קוראים ומשמרים
במונחים יומיומיים, עבודה זו יוצרת מעין "טביעת אצבע חזותית" לאלפי דוחות קיימות תאגידיים. היא מאפשרת לחוקרים לשאול, למשל, האם חברות הנמצאות תחת לחץ בעקבות ביצועים סביבתיים נמוכים נשענות יותר על צבעים בוהקים ותמונות מבריקות, או האם עיצובים קודרים יותר מלווים גילויים אמינים יותר. רגולטורים וקבוצות מעקב יוכלו להשתמש בכלים אלה כדי לזהות עיצובים שעשויים להטעות או כדי לעקוב אחרי שינויים בסגנונות הדיווח אחרי הצגת כללים חדשים. על‑ידי תרגום פריסות עמודים, בחירות תמונה וסכמות צבע למדדים שקופים, מערכת הנתונים מאפשרת לחקור לא רק מה חברות אומרות, אלא כיצד הן בוחרות להראות זאת.
ציטוט: Li, B., Xia, B., Cheng, Z. et al. A multi-level visual representation dataset for large-scale non-financial information disclosure. Sci Data 13, 500 (2026). https://doi.org/10.1038/s41597-026-06848-6
מילות מפתח: דיווח בר־קיימא, תקשורת חזותית, גילוי תאגידי, בדיקות מבוססות־נתונים, ממשל סביבתי־חברתי