Clear Sky Science · he

מיזוג תכונות מרחב-זמן בהנחיית קשב לזיהוי חריגות רב-עוצמתי במצלמות מעקב וידאו

2026-02-10 · חזרה לאינדקס

מדוע מצלמות חכמות חשובות

מתחנות רכבת סואנות ועד קניונים, החיים המודרניים מלאים במצלמות אבטחה שמקליטות בשקט את כל מה שקורה. עם זאת, רוב הווידאוים האלה עדיין נצפים—אם בכלל—על ידי עיניים אנושיות עייפות שיכולות להחמיץ רגע קריטי בקלות. מאמר זה חוקר סוג חדש של מערכת מעקב "חכמה" היכולה לזהות באופן אוטומטי התנהגויות חריגות או מסוכנות בזמן אמת, כגון גניבה או ונדליזם, על ידי הבנה גם של מה מופיע בסצנה וגם של האופן שבו הוא משתנה לאורך זמן.

לראות יותר מפיקסלים

זרם מצלמה מסורתי הוא פשוט רצף של תמונות. מערכות מחשב ישנות ניסו לזהות בעיות על ידי הסתכלות על כל מסגרת בנפרד, בחיפוש צורות וקצוות שמזכירים אנשים או עצמים. המחברים בוחנים תחילה גרסה מודרנית של רעיון זה שמשלבת רשת קומפקטית לזיהוי תמונה עם גלאי קצוות קלאסי. תצורה זו פועלת די טוב בסצנות מסודרות, במיוחד בזיהוי רמזים חזותיים ברורים כמו מישהו שנוגש פריט. אך מכיוון שהיא מתמקדת ברגעי תמונה בודדים, היא מתקשה כאשר אנשים מסתירים זה את זה, כאשר ההמון צפוף, או כאשר תנוחה זהה יכולה להיות נורמלית או חשודה בהתאם לאופן שבו היא מתפתחת לאורך זמן.

הבנת תנועה והתנהגות

כדי לתפוס את הסיפור שמאחורי פעולה ולא רק את הופעתה במסגרת יחידה, המחקר מעריך מודל ממוקד וידאו שמנתח קטעים קצרים במקום תמונות סטטיות. המודל לומד כיצד התנועה זורמת על פני מספר מסגרות ויכול לזהות טוב יותר שינויים פתאומיים כמו ריצה, קטטה או נשיכה. הוא מצטיין בלתפוס אירועים חריגים רבים, מה שמוביל לרגישות גבוהה. עם זאת, הוא גם סובל מבעיה קלאסית בעולם האמיתי: אירועים באמת חריגים נדירים בהשוואה לפעילות היומיומית. כתוצאה מכך המודל עלול להפוך לבלתי יציב, להנפיק יותר מדי התרעות שווא ולדרוש קטעי וידאו חתוכים בקפידה שאינם משקפים את הטבע המבולגן והמתמשך של חומרי מעקב אמיתיים.

שילוב היכן ומתי

בהסתמך על החוזקות והחולשות של שתי הבסיסיות הללו, המחברים מציעים מערכת היברידית חדשה שנקראת HybridModel-1 שמטרתה "לחשוב" גם במרחב וגם בזמן בו-זמנית. היא משלבת רשת שמצטיינת בהבנת האובייקטים הנמצאים בכל מסגרת עם גלאי מהיר שמ lokalizes את אותם עצמים בסצנה. מודול מיזוג ייחודי לומד להדגיש את הפרטים החזותיים המידעיים ביותר—כגון אנשים וחפצים מרכזיים—בזמן שהוא מוריד את חשיבות העומס ברקע כמו קירות, עצים או רכבים חולפים. במקביל, אסטרטגיית אימון חדשה מענישה בעדינות את המערכת כאשר רמת הביטחון שלה קופצת באופן קיצוני ממסגרת למסגרת, מה שמניע אותה לקבלת החלטות חלקות ועקביות יותר לאורך כל הווידאו.

מבחן המערכת

כדי לבדוק האם העיצוב הזה עובד מחוץ למעבדה, החוקרים בוחנים אותו על מספר מאגרי ציבור מאתגרים של חומר מעקב אמיתי. אוספים אלה כוללים הכול מסצנות גניבה פנימיות ועד שבילי הליכה בקמפוס חיצוני, עם עמדות מצלמה שונות, תאורה משתנה, גדלי קהל וסוגי אירועים מגוונים. על פני המדדים הללו, המודל ההיברידי עולה על שתי הגישות הבסיסיות (מבוסס-תמונה ומבוסס-וידאו). הוא משיג דיוק כולל גבוה יותר, מפיק הרבה פחות התרעות שווא ושומר על ביצועים חזקים גם כאשר מעריכים אותו על חומר שלא הוכשר עליו. השוואות מפורטות וניסויי אבולוציה—שבהם חלקים מהמערכת מוסרים או משתנים—מראים שמודול מיזוג התכונות וצעד האימון המתמקד בחלקות תורמים משמעותית לשיפורים אלה.

ממה זה מועיל לבטיחות היומיומית

במילים פשוטות, עבודה זו מראה שמערכות מעקב הופכות לאמינות יותר כאשר הן לומדות לשים לב לחלקים הנכונים של סצנה ולהישאר יציבות בהחלטותיהן לאורך זמן. במקום להתייחס לכל מסגרת כתמונה מבודדת או להסתמך רק על תנועה גולמית, הגישה המוצעת משלבת את ה"מה" וה"מתי" במסגרת אחת מכויל היטב. למרות שעדיין קיימות אתגרים בתנאים חשוכים מאוד או במצבים עם חסימות כבדות, התוצאות מציעות מסלול פרקטי לרשתות מצלמות שיכולות לסרוק בשקט כמויות עצומות של וידאו, להעלות אירועים חשודים אמיתיים ולהפחית את העומס של התרעות שווא על המפעילים האנושיים. לציבור, זה עשוי להתבטא במרחבים בטוחים יותר שמנוטרים על ידי מערכות שלא רק צופות, אלא באמת מבינות את מה שהן רואות.

ציטוט: Nivethika, S.D., Joshi, S., Verma, K. et al. Attention-guided saptio-temporal feature fusion for robus video surveillance anomaly detection. Sci Rep 16, 8027 (2026). https://doi.org/10.1038/s41598-026-36130-z

מילות מפתח: מעקב וידאו, זיהוי חריגות, מצלמות חכמות, זיהוי פשיעה, למידת מכונה