Clear Sky Science · he

מסגרת למידה עמוקה מתוחכמת להסבר לזיהוי אלימות בווידאו באמצעות בחירת פריימים מפתח בלתי מפוקחת ו-CNN מבוסס קשב

2026-02-26 · חזרה לאינדקס

מדוע בדיקות וידאו חכמות יותר חשובות

מיליארדי שעות של שידורי וידאו ממצלמות ברחוב, איצטדיונים ורשתות חברתיות בכל יום. שטף זה מסתיר רגעים קצרים של אלימות שחשיבותם גבוהה למשטרה, לצוותי אבטחה ולפלטפורמות מקוונות. מפעילים אנושיים אינם יכולים לצפות בכל חומר, ומערכות ה-AI של היום שמסמנות סצנות מסוכנות לעיתים פועלות כמו תיבות שחורות: הן עשויות להיות מדויקות, אך נדיר שהן מראות מדוע קבעו כי קטע הוא אלים. מאמר זה מציג מסגרת AI חדשה שאינה רק מזהה אלימות במהירות ובדיוק, אלא גם מדגישה את חלקי כל פריים שהובילו להחלטה, ועוזרת לאנשים להאמין ולאמת את מה שהמכונה רואה.

חיתוך רעשים בווידאו צפוף

צילומי אבטחה סטנדרטיים מכילים פריימים רבים שדומים זה לזה, כמו קטעים ארוכים של אנשים ההולכים או עומדים. עיבוד כל פריים מבזבז זמן וכוח חישוב, אך דילוג מופרז עלול להחמיץ את השבריר שנייה שבה נזרק אגרוף. המחברים מתמודדים עם זאת באמצעות שלב אוטומטי של בחירת "פריימי מפתח" שמסנן כל קליפ ושומר רק את הפריימים שבהם יש הבדלים אמיתיים זה מזה. במקום להסתמך על דגימה פשוטה מבוססת זמן, המערכת משווה פריימים במרחב ראייתי שנלמד, שבו שינויים עדינים אך משמעותיים בתנועה או ביציבה בולטים. במספר מאגרי נתונים ציבוריים, גישה זו שמרה רק כשעה השליש מהפריימים המקוריים תוך שמירה על ההתפרצויות הקצרות של תנועה שמציינות אלימות.

להוראת הרשת היכן להתמקד

לאחר שבוחרים את הפריימים המידעיים ביותר, הם מועברים דרך רשת קונבולוציונית קומפקטית, סוס עבודה נפוץ לזיהוי תמונות. כאן המחברים מוסיפים מודולי קשב שפועלים כזרקור בתוך הרשת. חלק אחד של הזרקור שוקל אילו ערוצי תכונה נושאים מידע חשוב על תנועה וצורה, בעוד שחלק אחר מדגיש אזורים ספציפיים בכל פריים שבהם מתרחשות האינטראקציות. במקום להתייחס לכל הפיקסלים ולכל האותות הפנימיים כשווים, הרשת לומדת להתמקד בזרועות נעות במהירות, בגופים במגע קרוב ובדפוסים מזהים אחרים, תוך השחרת רקעים סטטיים, שינויים באור או רעידות מצלמה. זאת הופכת את המודל גם ליותר מדויק וגם ליותר חזק בסצנות אמיתיות ומסובכות.

להפוך את ההגיון של המכונה לנראה

כדי להימנע מתכנון של תיבת שחורה, המסגרת בונה שכבת פירושיות הידועה כ-Grad-CAM++. לאחר שהרשת מקבלת החלטה, הכלי הזה עוקב חזרה אחר הפעילות הפנימית שלה כדי להפיק מפת חום על כל פריים, המדגישה את האזורים שהשפיעו ביותר על הכרעת "אלים" או "לא אלים". בקליפים אלימים, האזורים הזוהרים נוטים להצטבר סביב נקודות מגע פיזית ותנועה אינטנסיבית; בקליפים שקטים, ההדגשים נחלשים ומתפזרים. ההסברים הוויזואליים הללו עוזרים למפעילים לאשר שהמערכת מתמקדת בהתנהגות משמעותית במקום ברמזים לא רלוונטיים, ויכולים לשרת גם כחומר תומך בבדיקה פורנזית, שבה הבנת האופן שבו אלגוריתם הגיע למסקנה חשובה לא פחות מהמסקנה עצמה.

בחינת המערכת במבחן

המחברים אימנו והעריכו את המסגרת שלהם על חמישה מאגרי נתונים בשימוש נרחב שמשתרעים הן על הקלטות יומיומיות והן על חומר אבטחה ייעודי, כולל קטטות ברחוב, משחקי הוקי, קמפוסים צפופים וסרטוני אבטחה ארוכים. על פני מקורות מגוונים אלה, המערכת השיגה דיוק ממוצע של כ-95 אחוזים ועיבדה כ-62 פריימים לשנייה על חומרה מודרנית — מספיק מהיר למעקב בזמן אמת. היא עקפה באופן עקבי כמה קווי בסיס חזקים, כגון רשתות קונבולוציה תלת-ממדיות, היברידי CNN–LSTM ומודלים מבוססי טרנספורמר לוידאו, תוך שימוש בזיכרון מופחת. ניסויים קפדניים הראו כי גם מסנן פריימי המפתח וגם מודולי הקשב תרמו באופן מובהק סטטיסטית לביצועים, וכי המודל הועבר באופן סביר כאשר אומן על מאגר נתונים אחד ונבדק על אחר.

מה משמעות הדבר למעקב בטוח ושקוף יותר

עבור לא-מומחים, המסר המרכזי הוא שהמחברים בנו גלאי אלימות בווידאו שאינו רק מהיר ומדויק, אלא גם ניתן להסבר. על ידי סינון פריימים מיותרים, ריכוז הקשב הפנימי בתנועה הרלוונטית ביותר, ולאחר מכן ויזואליזציה של מה שה"ביטה" כדי לקבל כל החלטה, המערכת מציעה שותף שקוף יותר למפקחים האנושיים. במונחים מעשיים, זה עשוי לעזור למרכזי אבטחה ולפלטפורמות מקוונות לסרוק יותר שידורים עם פחות אזעקות שווא, בעוד מבט על שיפוטי המכונה עדיין יאפשר לאנשים לבדוק ולהטיל ספק בהחלטותיה. העבודה מצביעה על מערכות עתידיות שישלבו וידאו, שמע ומודלים טמפורליים חדשים יותר, אך התרומה העיקרית שלה היא ההדגמה שאפקטיביות ובהירות יכולות להתקיים יחד בכלי AI שמתוכננים לשמור על בטחון במרחבים ציבוריים ובפלטפורמות דיגיטליות.

ציטוט: Azim, R., Abbas, N., Alkahtani, H.K. et al. An explainable deep learning framework for video violence detection using unsupervised keyframe selection and attention-based CNN. Sci Rep 16, 11098 (2026). https://doi.org/10.1038/s41598-026-40977-7

מילות מפתח: פיקוח וידאו, זיהוי אלימות, AI מביא יכולת הסבר, CNN מבוסס קשב, בטחון ציבורי