Clear Sky Science · he

שיטה לאמידת מיקום 3D של המחוות ביד מבוססת swin transformer ו-CNN

· חזרה לאינדקס

ידיים שמדברות עם מכונות

דמיין לשלוט במחשב, בלוח מחוונים של רכב או בעולם מציאות מדומה רק על ידי הזזת הידיים באוויר. כדי שזה ירגיש טבעי, המכונות חייבות לדעת בדיוק היכן נמצא כל מפרק של האצבע במרחב תלת־ממדי, גם כאשר חלקים מהיד מוסתרים או בתאורה לקויה. מאמר זה מציג שיטה חדשה לקריאה של תנוחות ידיים מצלמות עומק בדיוק גבוה יותר, ומקרב אינטראקציה חלקה ללא מגע למציאות יומיומית.

Figure 1
Figure 1.

מדוע קריאת ידיים קשה כל כך

אמידת תנוחת היד משמעותה מציאת העמדות התלת־ממדיות של מפרקי המפתח ביד מתוך נתוני מצלמה. זה הרבה יותר מורכב ממה שזה נשמע. האצבעות מתקפלות, מסתובבות ומתכסות זו על גבי זו, ואנשים שונים שונים בצורת וגודל היד. שיטות רבות קיימות מסתכלות רק על רמזים ויזואליים מוגבלים או מתמקדות באזורים קטנים, ולכן מפסידות את האופן שבו כל היד נעה יחד. הן גם מתקשות ללכוד יחסים בין מפרקים מרוחקים, כמו שיתוף הפעולה בין אגודל לאצבע המורה בעת אחיזה בחפץ. פערים אלה בהבנה מובילים לשגיאות גדולות יותר ולביצועים לא אמינים במצבים מעשיים כמו מציאות מדומה או זיהוי שפת סימנים.

תצפית חדשה דו‑מסלולית על היד

המחברים מציעים מערכת שמקבלת תמונות עומק—תמונות שבהן כל פיקסל מקודד מרחק מהמצלמה—והופכת אותן לשלד יד תלת־ממדי מדויק. תחילה, רשת עצבית קונבולוציונית קונבנציונלית מוציאה תכונות ויזואליות גסות מתמונת העומק המקורית. לאחר מכן המידע זורם לשני מסלולים מקבילים. מסלול אחד משתמש ברשת בצורת U כדי לשמר פרטים דקים בכמה סולמות תמונה, ולשמור על מבנים קטנים כגון מפרקי אצבע בודדים. המסלול השני משתמש בארכיטקטורה חדשה יותר הנקראת Swin Transformer, שמצטיינת בלכידת הקשרים בין אזורים מרוחקים בתמונה. על ידי הרצת שני המסלולים במקביל ואיחוד הפלטים שלהם, המודל לומד הן את הפרטים המקומיים של כל מפרק והן את הארגון הכולל של היד.

Figure 2
Figure 2.

מפות חום שמדגישות מפרקי אצבע

כדי לסייע לרשת ללמוד היכן סביר שמופיעים המפרקים, החוקרים מוסיפים ייצוג ביניים שנקרא מפה חום. עבור כל מפרק הם מייצרים נקודה רכה וזוהרת במפת דו־ממדית שפסגתה מסמנת את המיקום הסביר ביותר של אותו מפרק, בעוד שהפיקסלים הסמוכים דועכים בהדרגה. במהלך האימון המודל נדרש לא רק לחזות את הקורדינטות התלת־ממדיות הסופיות של כל מפרק, אלא גם להתאים למפות החום הללו. פיקוח כפול זה מנחה את הרשת לשים לב הן למבנה המרחבי בתמונה והן לקשרים הטבעיים בין מפרקים סמוכים. הוא גם משפר את יכולת המערכת להכליל על פני אנשים ותנוחות יד שונות.

נתונים חדשים ודיוק משופר

כדי לבחון את הגישה שלהם, המחברים משלבים סט נתונים מבוסס מיקרוסופט ריסרצ׳ אזיה עם אוסף חדש של תמונות עומק שהם צילמו באמצעות מכשיר LiDAR. סט הנתונים שלהם מוסיף מקרים מאתגרים, כגון ידיים קטנות ומרוחקות ומחוות מגוונות, כדי לשקף טוב יותר תרחישי שימוש אמיתיים. השיטה הושוותה למספר מערכות אמידת תנוחת יד נפוצות. בממוצע, המודל החדש מפחית את השגיאה בעמדות המפרקים בעד כמה מילימטרים בהשוואה למתחרים אלה, ועדיין פועל במהירויות המתאימות ליישומים בזמן אמת או כמעט בזמן אמת. ניסויים מפורטים מראים שכל מרכיב עיקרי—מידול גלובלי על ידי ה‑Swin Transformer, תכונות מקומיות מרובות סולמות מהרשת בצורת U, ופיקוח באמצעות מפות חום—תורם באופן מדיד לדיוק הסופי.

מה משמעות הדבר לאינטראקציה היומיומית

באופן פשוט, המחקר מראה שלהניח לאלגוריתם לראות גם את "התמונה הגדולה" של כל היד וגם את הפרטים הקטנים של כל אצבע, ולאמן אותו עם מפות חום המדגישות מיקומי מפרקים סבירים, מביא למעקב אמין יותר של תנועת יד תלת‑ממדית. שיפור זה בדיוק ועמידות מקל על בניית מערכות מבוקרות במחוות שעובדות על פני משתמשים, תנאי תאורה ותנוחות מורכבות, בין אם למציאות מדומה, לוחות מחוונים חכמים ברכב או כלי שיתוף פעולה מרחוק. למרות שהשיטה עדיין צריכה להתרחב למקרים מסובכים יותר שבהם ידיים באינטראקציה קרובה עם חפצים, היא מהווה צעד מוצק לעבר מחשבים שיקראו את תנועות היד שלנו באופן חלק כמו השימוש שלנו בהן.

ציטוט: Dang, R., Feng, G. Hand gesture 3D pose estimation method based on swin transformer and CNN. Sci Rep 16, 11551 (2026). https://doi.org/10.1038/s41598-026-41974-6

מילות מפתח: אמידת תנוחת יד, זיהוי מחוות, דימות עומק, רשתות טרנספורמר, אינטראקציה אדם–מחשב