Clear Sky Science · he

מסגרת למידת עומק מוטמעת לזיהוי אלימות בזמן אמת והפקת התראות

· חזרה לאינדקס

מדוע מצלמות חכמות חשובות לבטיחות היומיומית

שטויות ומעשי תוקפנות ברחובות, בבתי ספר ובתחבורה ציבורית מתרחשים לעתים בתוך שניות, הרבה לפני שמפעילים אנושיים успיים לסרוק את כל מסכי המצלמות ולקרוא לעזרה. המחקר הזה מציג שיטה למחשבים קטנים וזולים—מכשירים צנועים בגודל לוח Raspberry Pi—לצפות בוידאו בזמן אמת ולסמן באופן אוטומטי התנהגות שעשויה להיות אלימה. על ידי דחיסת טכניקות חזקות של ניתוח וידאו לתוך מערכת יעילה שפועלת על המכשיר עצמו, העבודה מראה כיצד מצלמות קיימות יכולות להפוך לשומרות מהירות ואמינות יותר בלי להסתמך על מרכזי נתונים מרוחקים או תשומת לב אנושית מתמדת.

Figure 1
Figure 1.

הפיכת וידאו גולמי לאיתותי אזהרה מוקדמים

המערכת מתחילה בצילומי מעקב שגרתיים ממקומות כמו אצטדיונים, מדרכות, שבילי קמפוס ומעברים פנימיים. במקום להזרים את כל הווידאו הזה לשרת מרכזי, כל מצלמה שולחת את הפריימים שלה ישירות ללוח מוטמע קרוב. שם, הפריימים הנכנסים מיוצבים—ממוזערים, מנוקיים ומשתנים בעדינות באמצעות החלפות, סיבובים ושינויים בבהירות במהלך האימון—כך שהמודל ילמד להתמודד עם תנאי תאורה, זוויות צפייה וצפיפות קהל שונות. המחברים גם בנו תערובת עשירה של חומרי אימון: חמש מערכות נתונים ציבוריות ידועות בנוסף לאוסף חדש בן שישה קטגוריות הכולל מכות, בעיטות, תקיפות הקשורות לנשק, אלימות המונית, ריצה ואינטראקציות רגילות.

כיצד המוח הקומפקטי בתוך הקופסה עובד

במרכז המערכת עומד מנוע למידה בת שני שלבים מלוטש. קודם כל, מודול תמונה קל משקל סורק כל פריים עבור רמזים חזותיים משמעותיים—קווי גוף, מיקום הזרועות והרגליים וקצוות תנועה—באמצעות פעולות קונבולוציה חסכוניות שנלקחות מדגמי חזון לניידים. לאחר מכן מודול שני בוחן רצף קצר של פריימים כדי להבין כיצד אותם רמזים משתנים עם הזמן, וללכוד את ההבדל בין, למשל, טפיחה ידידותית לבין אגרוף. הדבר מתבצע באמצעות מבנה רידמי יעיל שזוכר תנועה עדכנית ללא עומס החישוב של רשתות וידאו כבדות יותר. שכבה סופית פשוטה ממירה את ההבנה הספאטיו‑טמפורלית הזו לאחד משש תוויות פעילות, ומבדילה תנועה שגרתית מתוקפנות אפשרית.

התאמת למידת עומק ללוח קטן וצריכת־אנרגיה נמוכה

עיצוב מודל חכם הוא רק חצי מהסיפור; האתגר האמיתי הוא לגרום לו לרוץ מהר על מחשב בגודל כף היד. המחברים מתייחסים לכל המערכת כאל צינור הנדסי: הם מתחילים בגרסה שאומנה על תחנת עבודה גרפית חזקה, ואז ממירים אותה לפורמט נייד ומכווצים אותה באגרסיביות. הדיוק המספרי מוקטן כך שהמשקלים תופסים רבע מזכרון המקור, וחלקים מיותרים של הרשת נחתכים. באמצעות כלי אופטימיזציה מיוחדים מחוץ למכשיר, הם מייצרים מודל מכוּון שניתן לבצע ביעילות על Raspberry Pi בעזרת ריצה בזמן אמת מותאמת. התוצאה היא מערכת שמעבדת כ‑26 פריימים לשנייה עם בערך 38 מילי־שניות השהייה לפריים, וכל זאת עם צריכת חשמל של כמה וואטים בלבד—מהירה וחסכונית מספיק לפעולה רציפה בשטח.

Figure 2
Figure 2.

בדיקות, אמון ומגבלות שיפוט המכונה

כדי לבדוק האם הצופה הקומפקטי שלהם מדויק ואמין, החוקרים העמידו אותו מול סדרת מבחנים מקיפה. על מאגרי הבנץ׳מארק מאצטדיוני הוקי ועד רחובות עירוניים, ובמאגר ששת‑המחלקות שלהם עצמם, המערכת תייגה אירועים נכון בכ‑97 מתוך 100 מקרים והראתה איזון חזק בין תפיסת מעשי אלימות למניעת אזעקות שווא. השוואות עם דגמי וידאו מתוחכמים יותר—כמו רשתות קונבולוציה תלת־ממדיות מלאות ועיצובים מבוססי טרנספורמר—הראו כי גישה דלה יותר זו יכולה לשוות או לעלות על דיוקה תוך שימוש בהרבה פחות חישוב. הצוות גם המחיש היכן המודל "מביט" בתוך כל פריים, ומצא כי תשומת הלב שלו מתרכזת באופן טבעי בגפיים בתנועה ובמגעים קרובים בין בני אדם, ולא בפרטים רלוונטיים ברקע, מה שמסייע לבנות אמון בהחלטותיו.

מה משמעות הדבר לחללים בטוחים וחכמים יותר

המסר המרכזי של המחקר אינו שאולץ סוג חדש לחלוטין של רשת עצבית, אלא שהוא הראה כיצד לארוז טכניקות מוכחות לכלי מעשי בזמן אמת עבור חומרה צנועה. באמצעות איזון מדוד של עיצוב המודל, הכנת הנתונים ודחיסת זמן הפריסה, המחברים מספקים מערכת מוטמעת שיכולה לנטר וידאו חי, לזהות אלימות אפשרית ולהפעיל התראות בעיכוב ובצריכת אנרגיה נמוכים. הם גם מכירים באתגרים פתוחים: המערכת עדיין עלולה להיכשל בתאורה ירודה, בסצנות צפופות או בתנועות מהירות בסגנון ספורט, וכל טכנולוגיה כזו חייבת להיות מופעלת תוך תשומת לב לפרטיות, להטיה ולפיקוח אנושי. אף על פי כן, העבודה מצביעה על עתיד שבו מצלמות רבות ושגרתיות מצורפות למחשבים קטנים ושקטים שיעזרו לזהות סיכון מוקדם ולתמוך בתגובות מהירות ומבוססות מידע.

ציטוט: Salman, M., Abbas, N., ur Rahman, S.I. et al. An embedded deep learning framework for real-time violence detection and alert generation. Sci Rep 16, 10805 (2026). https://doi.org/10.1038/s41598-026-44939-x

מילות מפתח: זיהוי אלימות, חזון מוטמע, AI בקצה, פיקוח וידאו, למידת עומק