Clear Sky Science · he

יישום LSTM-CNN בזיהוי תנועות סקי תחת טכנולוגיית בינה מלאכותית

2026-03-02 · חזרה לאינדקס

אימון חכם במדרונות

גולשי סקי, מאמנים ומעריצים פונים יותר ויותר לוידאו כדי להבין מה קורה ברגע קרב או בקפיצה שנמשכת שבריר שנייה. עם זאת, במציאות החיצונית תזות שלג, עצים, אור משתנה ומדרונות צפופים מקשים על מחשבים לזהות באופן מהימן מה הגולש עושה. המאמר מציג מערכת בינה מלאכותית חדשה שיכולה לקרוא באופן אוטומטי טכניקת סקי מתוך סרטונים רגילים בדיוק גבוה, גם בתנאי שטח חיצוניים מבולגנים. טכנולוגיה כזו עשויה יום אחד להידחף לכלי אימון בזמן אמת, לאימון בטוח יותר ולניתוח ביצועים מעמיק יותר בענפי ספורט חורף.

מדוע ללמד מחשבים לראות סקי קשה

ניתוח סקי הוא אתגרי מכיוון שהתנועות מהירות, תלת־ממדיות ולעיתים מוסתרות חלקית על ידי בגדים מרתקים או גוף הגולש עצמו. במקביל, סצנות חיצוניות מלאות הפרעות: עצים, תלמים שלג, השתקפויות חזקות ומזג אוויר משתנה. מערכות קודמות מבוססות וידאו או התמקדות יתר במראה סטטי בפריימים בודדים, או נכשלו במעקב נכון אחרי ההתפתחות התנועתית לאורך הזמן. כתוצאה מכך, הן נטו לבלבל בין פעולות דומות, התקשו בתנאי ראות ירודים ולא היו עמידות כאשר הופיעו ספורטאים חדשים או תנאי מדרון חדשים.

מבט דו־עיני על תנועת הסקי

המחברים מעצבים מודל שצופה בסרטוני סקי בשתי דרכים משלימות במקביל. "עין" אחת בוחנת פריימים צבעוניים רגילים, ותופסת כיצד הגולש והסביבה נראים. ה"עין" השנייה מתמקדת בתנועה על ידי מעקב אחרי הזזת פיקסלים מפריים לפריים, טכניקה הידועה כזרימת אופטית. משדה התנועה הזה המערכת בונה מפה של חשיבות ויזואלית (saliency) המדגישה את האזורים הפעילים באמת — המגלשים, הרגליים והגוף — בעוד שהיא מפחיתה את חשיבות הרקע הסטטי כמו עצים וסלעי שלג. שני הזרמים עוברים דרך רשת קונבולוציה תלת־ממדית שלומדת דפוסים במרחב ובמרווחי זמן קצרים, ומזוקקת כל קטע וידאו לחתימות קומפקטיות של הופעה ותנועה.

מיזוג מה שהיא רואה וכיצד היא נעה

במקום פשוט להערם או לממוצע בין שני מקורות המידע, המודל לומד כמה משקל לתת לכל אחד עבור כל קליפ שהוא מנתח. עבור כמה מהלכים, כמו עצירת פלואו שבה המגלשים יוצרים צורה מובחנת, רמזי המראה חשובים יותר. עבור פניות חלקות במקביל, הקצב וכיוון התנועה מסגירים יותר. מודול מיזוג הניתן ללמידה מתאים אוטומטית את התרומות הללו, מנרמל את שתי מערכות התכונות ומשלב ביניהן באמצעות משקלים מאומנים שתמיד מסתכמים לאחד. התערובת המותאמת הזו מאפשרת למערכת להתמקד בראיות הוויזואליות המידעיות ביותר עבור הפעולה הנוכחית, מה שהופך את הזיהוי למדויק ואמין יותר בסגנונות ומצבים שונים של סקי.

קריאת הסיפור המלא של כל פנייה

זיהוי פעולה בסקי הוא לא רק עניין של תנוחה בודדת; זה עניין של איך הרצף מתפתח מההתחלה ועד הסוף. כדי ללכוד זאת, התכונות הממוזגות מוזנות לרשת חוזרת דו־כיוונית שמסתכלת גם קדימה וגם אחורה בזמן. במקום להסתמך רק על פריימים מהעבר, המודל משתמש גם ברמזים מפריימים עתידיים כדי להבין מה הגולש עושה. זה עוזר להבחין בין פעולות שעשויות להיראות דומות בצילום רגעי אך שונות בזמן ותיאום. ניסויים על מאגר SkiTB — אוסף גדול של סרטוני סקי מהעולם האמיתי — מראים שהמערכת החדשה מתעלה על כמה שיטות מבוססות, ומשיגה כ־93% דיוק ו־F1. היא נשארת מעל 85% דיוק גם כאשר נבחנת בתנאי מזג אוויר שונים, ספורטאים שלא נראו קודם וקטעי וידאו עם רעש מלאכותי.

מה זה אומר עבור גולשים וטכנולוגיית ספורט

על ידי שילוב תפיסה תנועתית ממוקדת, מיזוג אדפטיבי של רמזים חזותיים וקריאת תנועה המודעת לזמן, המודל המוצע יכול לומר באופן מהימן האם הגולש פונה, מבלם או קופץ, גם בסביבות עמוסות ומשתנות. למי שאינו מומחה, המסקנה המרכזית היא שהמערכת לא סופרת רק פריימים; היא לומדת איפה להסתכל, מה חשוב ביותר וכיצד מחזור פעולה מלא מתפתח. גישה זו יכולה לשמש כעמוד שדרה לעוזרי אימון חכמים שייתנו משוב אובייקטיבי, יעזרו למנוע פציעות על ידי זיהוי דפוסים מסוכנים ותומכים בניתוח שידור מעמיק יותר. אמנם המחברים מציינים שמזג אוויר קיצוני וטריקים אוויריים קצרים מאוד עדיין מהווים אתגר, המסגרת שלהם מציעה בסיס יציב לכלי אימון חכמים עתידיים בסקי ובאפשרותם גם בספורט חיצוני רב אחר.

ציטוט: Zhang, W., Xu, L. & Wang, L. Application of LSTM-CNN in skiing action recognition under artificial intelligence technology. Sci Rep 16, 11547 (2026). https://doi.org/10.1038/s41598-026-42324-2

מילות מפתח: זיהוי תנועות סקי, ניתוח וידאו של ספורט, למידה עמוקה, זרימת אופטית, ביצועי ספורטאי