Clear Sky Science · he
לעבר הערכה מדויקת וניתנת לפרשנות המבוססת על יכולות: שיפור הערכת יכולת קלינית באמצעות בינה רב‑מולטימודית וזיהוי אנומליות
מדוע חשוב ללמד רופאים בחכמה רבה יותר
כאשר רופאים מתאמנים להתמודד עם מצבי חירום רפואיים, הביצועים שלהם מוערכים לעתים קרובות על‑ידי בוחנים אנושיים הצופים בהם בסצנות מדומות. דירוגים אלה קריטיים לבטיחות המטופל, אך הם יכולים להיות סובייקטיביים, משתנים בין בוחנים ולעתים גסים מדי כדי להדגיש למתלמדים בדיוק מה לשפר. במחקר זה מוצגת מערכת בינה מלאכותית חדשה הצופה ושומעת במהלך סימולציות הרדמה ברמת פידליות גבוהה והופכת את מה שהיא רואה ושומעת למדד אובייקטיבי וניתן לפרשנות של כושר קליני. המטרה אינה להחליף מורים מומחים, אלא להעניק להם עדשה מדויקת, הוגנת ומפורטת יותר על האופן שבו המתמחים מתנהגים תחת לחץ.

צפייה במצבי חירום מכמה זוויות
החוקרים התמקדו בסימולציות טיפול קריטי המשמשות להכנת מתמחי הרדמה בישראל לבחינה הממלכתית. תשעים מתמחים מ‑17 בתי חולים התמודדו עם משברים מסכני חיים בהדמיה מציאותית בחדר ניתוח הכוללת דמות אדם מלאת גוף, אח ואורגני. כל תרחיש התפתח בארבעה שלבים: תקופה התחלית יציבה, שלב של הידרדרות מהירה, החייאה פעילה בהתאם לפרוטוקולי תמיכה בחיים סטנדרטיים, ולבסוף ייצוב והעברת טיפול. במהלך כל הסימולציה מצלמות הקליטו את החדר ומסך המוניטור, מיקרופונים לכדו דיבור, ותצוגת המדדים הוויטאליים עובדה בפורמט דיגיטלי. אנשאים מוסמכים בהרדמה דרגו לאחר מכן את כל מתמחה בדירוג כולל מ‑1 (חלש) עד 5 (מצטיין).
המרת התנהגות לזרמי נתונים
כדי להפוך את הסצנה העשירה הזו לניתנת לניתוח על‑ידי בינה מלאכותית, הצוות המיר את הווידאו והאודיו לאותות טיימסריים מסונכרנים. זרם אחד עקב מתי מבטו של המתמחה הופנה אל מסך המוניטור, באמצעות זיהוי פנים ואומדן יעד המבט. זרם שני העריך היכן המתמחה עמד ונע בחדר, בהתבסס על תנוחת גוף תלת‑ממדית. זרם שלישי ציין מתי המתמחה דיבר, לאחר ניקוי האודיו להפרדת קולו מרעשי רקע. לבסוף, החוקרים קריאו את קצב הלב, לחץ הדם, קצב הנשימה ורוויון החמצן ישירות ממסך המוניטור באמצעות זיהוי תווים אופטי, מה שהניב עקומות רציפות של מצב פיזיולוגי. כל הערוצים הללו סונכרנו פר‑פריים, מה שיצר דיוקן מפורט של רגע ברגע על האופן שבו המתמחים הביטו, זזו, דיברו ותגובה למצב המטופל.

לימוד מה נראה "כמו מומחה"
במקום ללמד את המערכת לשכפל ישירות את ציוני האנשים, המחברים השתמשו במודל לזיהוי אנומליות שנקרא MEMTO, שתוכנן במקור לזיהוי דפוסים בלתי שגרתיים בסדרות זמן מורכבות. תחילה הם אימנו את MEMTO רק על הביצועים הטובים—מתמחים שדורגו 5—כדי ללמוד מהי התנהגות "אידיאלית" לאורך זמן בכל האותות. לאחר שבסיס זה נקבע, המודל עיבד כל סימולציה של מתמחה וייצר ציון אנומליה בכל רגע, המשקף עד כמה התנהגות אותו רגע חרגה מהדוגמה המומחית. ציוני האנומליה הללו נאספו ומופו בצורה חלקה לקנה המידה המוכר 1–5, כך שסטיות נמוכות יותר מתבנית המומחה הקנו ציוני יכולת גבוהים יותר.
מה שלמדה ה‑AI על ביצוע טוב
הגישה הרב‑מולטימודית—שילוב מבט, תנועה, דיבור ומדדים ויטאליים—הוכחה כחיונית. כאשר אימנו את המודל על מתמחים מדורגים גבוה, ציוני המודל תיאמו במידה רבה את דרגות המומחים, עם מתאמים ומדדי עקביות חזקים, ומיינו את המתמחים בסדר כמעט זהה לזה של הבוחנים האנושיים. לעומת זאת, הסתמכות על זרם יחיד, כגון מבט בלבד, הניבה התאמה חלשה בהרבה. אימון המודל על הביצועים הגרועים ביותר הוביל גם הוא להתאמות פחות טובות, מה שמדגיש כי נקודות ייחוס צריכות להתבסס על התנהגות מומחים ולא על שגיאות שכיחות. כדי להפוך את החלטות המערכת למובנות, הצוות השתמש בשיטת הסבר הידועה כ‑SHAP, שמדגישה אילו קלטים השפיעו ביותר על ציוני האנומליה. תקשורת ומגע עין עם המוניטור בלטו כחשובים במיוחד, בפרט במהלך הסלמה של המשבר והחייאה פעילה, בעוד שהמדדים הוויטאליים הפכו להשפעה גדולה יותר בשלב הייצוב.
מה משמעות הדבר להכשרת רופאים בעתיד
המחקר מראה כי בינה מלאכותית יכולה להרחיב את הכשרה הקלינית מעבר לרשימות בדיקה פשוטות או דירוגי עובר‑נכשל על‑ידי לכידת האופן שבו המתלמדים מתנהגים שנייה‑אחרי‑שנייה במצבי חירום ריאליסטיים. בעזרת השוואת כל מתמחה לדיוקן מבוסס‑נתונים של ביצוע מומחה, המערכת יכולה לסמן מתי התקשורת מתפרקת, קשב למוניטור דועך או תגובות לשינויים במדדים הוויטאליים יוצאות מהתבנית—מידע שיכול לכוון משוב עשיר וממוקד שלב בדיונים שלאחר האירוע. המחברים מדגישים שכלים כאלה צריכים להשלים ולא להחליף את שיקול דעת האדם, ויש לפרוסם בזהירות, עם הגנות פרטיות חזקות ובדיקות הוגנות. עם זאת, התוצאות מצביעות על דרך להערכות אובייקטיביות, שקופות ולימודיות יותר שיכולות להתרחב בתוכניות ההכשרה ולעזור בסופו של דבר להפוך את הטיפול במטופלים לעולם האמיתי לבטוח יותר.
ציטוט: Gershov, S., Mahameed, F., Raz, A. et al. Towards accurate and interpretable competency-based assessment: enhancing clinical competency assessment through multimodal AI and anomaly detection. npj Digit. Med. 9, 219 (2026). https://doi.org/10.1038/s41746-025-02299-2
מילות מפתח: הערכת יכולת קלינית, סימולציה רפואית, בינה רב‑מולטימודית, זיהוי אנומליות, חינוך רפואי