Clear Sky Science · he

הכללה בתחום יחיד מבוססת טרנספורמציית פורייה לספירת קהל

· חזרה לאינדקס

מדוע ספירות קהל חכמות יותר חשובות

מפסטיבלים ותחנות רכבת תחתית ועד רחובות עירוניים בלילה גשום — לדעת באופן משוער כמה אנשים נמצאים במקום היא משימה חיונית לתכנון בטיחות, שליטה בתנועה ולהיערכות לחירום. מערכות ממוחשבות כיום מסוגלות לאמוד גודל קהל מצילומי מצלמה, אך לעתים קרובות נכשלות כשהתנאים משתנים — למשל כאשר מצלמה זזה, התאורה עוברית מיום ללילה, או ערפול וטשטוש מטשטשים פרטים. מאמר זה מציג את SinCount, גישה חדשה שמטרתה להפוך את ספירת הקהל האוטומטית לאמינה הרבה יותר בעולם המעורב והמשתנה.

Figure 1
Figure 1.

הבעיה של סצנות משתנות

רוב מערכות הספירה המודרניות משתמשות בלמידה עמוקה כדי להמיר תמונה ל"מפת צפיפות" — סוג של דפוס חום שמראה היכן אנשים נמצאים וכמה צפופים הם. סכימת המפה מניבה את מספר האנשים הכולל. מערכות אלה יכולות להיות מדויקות מאוד כשהתמונות שהן רואות בזמן הפעולה דומות לאלו שעודכנו בהדרכה. בפועל, עם זאת, סצנות אמיתיות משתנות באופן קיצוני: מצלמות מצביעות בזוויות שונות, קהל נע מצפיפות רחוב דלילה עד לאצטדיונים מלאים, והתנאים מזג האוויר והתאורה משתנים מאור שמש חזק לערפול לילה. איסוף תמונות מתויגות חדשות לכל אתר חדש הוא איטי ויקר, בייחוד מאחר שכל אדם חייב להיות מסומן ידנית. כתוצאה מכך, מודלים מאומנים בהקשר אחד נוטים להיכשל כאשר מועברים לאחר — בעיה שנקראת "הסטת תחום" (domain shift).

מסתכלים על קהלים דרך תדרים

החוקרים מתמודדים עם הבעיה על ידי הצגת תמונות לא רק כפיקסלים, אלא כשילוב של תדרים, במובן של טרנספורמציית פורייה. מרכיבי תדר גבוה מדגישים קצוות חדים ופרטים עדינים, כמו קווי המתאר של ראשים וכתפיים. מרכיבי תדר נמוך לוכדים את המערך הכללי של הסצנה, למשל היכן הקהל נמצא בדרך כלל או עד כמה צפופות אזורים שונים. הצוות מבחין ששני סוגי המידע האלה מתאימים מטבעם לשתי משימות שונות: רמזי תדר גבוה מועילים לאמוד כמה אנשים נמצאים בכל תת-חלק קטן, בעוד רמזים חלקים יותר בתדר נמוך מתאימים להבחנה בין אזורי קהל לרקע.

שני חלקים שפועלים יחד וחולקים את העומס

בהתבסס על רעיון זה, SinCount משתמש בתכנון עם שני מסלולים (dual-branch). מאפיין משותף מחלץ תחילה את התמונה ואז מתחלק למסלול צפיפות ולמסלול סיווג. מודול מיוחד, שנקרא חילוץ מאפיינים ספציפי לתדר (Frequency-Specific Feature Extraction), מפריד גרסאות תדר גבוה ותדר נמוך של הסצנה ולומד ייצוגים פנימיים קומפקטיים של כל אחד מהם. מסלול הצפיפות מקבל הנחיה מתדר גבוה דרך בלוק קשב מרחבי שמבליט מקומות שסביר שיתאימו לאנשים, ומחדד את מפת הצפיפות הסופית. בינתיים, מסלול הסיווג מקבל הנחיה מתדר נמוך דרך קשב מבוסס ערוצים שמחזק תכונות הקשורות לאזורי קהל ומדכא רקע לא רלוונטי. יחד, שני המסלולים מייצרים מפת צפיפות משופרת שממוקדת באזורי קהל תוך התעלמות מאזורים ריקים או מבלבלים.

Figure 2
Figure 2.

שמירה על מיקוד בעולם רועש

תמונות אמיתיות מכילות גם הסחות דעת: סנוור, טשטוש תנועה או שינויים בתאורה יכולים לדחוף את המודל בעקבות דפוסים מטעות. כדי להגן מפני זה, SinCount מוסיף שתי רעיונות נוספים. מסיכת נרמול מופעים משווה כיצד מאפיינים מגיבים לתמונה מקורית ולגרסה מוגדלת (למשל כזו שעברה שינוי צבע או טשטוש) ומפחיתה את המשקל של מיקומים שמשתנים יותר מדי, תוך התייחסות אליהם כלא אמינים. אובדן עקביות קשב מעודד את המערכת להסתכל על אזורים דומים בשתי הגרסאות של התמונה, כך שהמיקוד שלה לא ינדוד רק בגלל שהמראה השתנה מעט. איתותי אימון נוספים דוחפים את מסלול התדר הגבוה להתאים טוב יותר לצפיפויות הקהל האמיתיות ואת מסלול התדר הנמוך להתאים טוב יותר לאיזורי קהל מול רקע.

מה משמעות התוצאות בפועל

החוקרים בודקים את SinCount במספר מערכי נתונים ציבוריים מאתגרים, כולל אצטדיונים מלאים, רחובות עירוניים וסצנות ליליות עם טשטוש ותאורה חלשה. מבלי לראות דוגמאות מהסצנות היעד בזמן ההדרכה, SinCount משווה בעקביות או עולה על שיטות קיימות להכללה בתחום יחיד, לעתים עם עיבוד מהיר יותר כי הוא נמנע ממודולים כבדי זיכרון שהשתמשו בהם עיצובים קודמים. במילים פשוטות, המערכת לומדת לספור קהלים מסביבה אחת ואז עושה עבודה מוצקה כשהיא מועברת לרבות אחרות שמעולם לא נתקלה בהן. בשביל מנהלי עיר, מארגני אירועים וגופי בטיחות, הדבר מצביע על כלים למעקב קהל עמידים יותר כלפי מצלמות חדשות, מיקומים חדשים ושינויים במזג האוויר — המספקים ספירות מהימנות כשזה הכי חשוב.

ציטוט: Song, L., Li, T., Cai, Z. et al. Fourier transform-based single domain generalization for crowd counting. Sci Rep 16, 11744 (2026). https://doi.org/10.1038/s41598-026-46286-3

מילות מפתח: ספירת קהל, הכללה בתחום, תדירות פורייה, ראייה ממוחשבת, מפות צפיפות