Clear Sky Science · he

למידת פדרציה למערכות רשומות רפואיות אלקטרוניות הטרוגניות עם בחירת משתתפים חסכונית

2026-02-01 · חזרה לאינדקס

מדוע שיתוף נתוני בית חולים כל כך קשה

בתי חולים מודרניים אוספים כמויות עצומות של מידע דיגיטלי על מטופליהם, מבדיקות מעבדה וסימנים חיוניים ועד לתרופות ולהליכים רפואיים. בתיאוריה, שילוב רשומות כאלה ממוסדות רבים אמור לאפשר לרופאים לבנות מודלים חכמים יותר שמנבאים מי בסיכון ואילו טיפולים עשויים לסייע ביותר. בפועל, עם זאת, בתי חולים משתמשים במערכות תוכנה שונות, מאחסנים נתונים בפורמטים לא תואמים וחייבים להגן בקפדנות על פרטיות המטופלים ועל תקציביהם. המחקר הזה בוחן כיצד לאפשר לבתי חולים ללמוד זה מהנתונים של זה מבלי להעתיק אותם או לבזבז כספים מיותרים.

אימון משותף בלי שיתוף הרשומות הגולמיות

המחברים מתבססים על גישה הנקראת למידת פדרציה, שבה כל בית חולים מאמן מודל מקומי על רשומות המטופלים שלו ואז משתף רק עדכוני מודל, לא נתונים גולמיים. בית חולים מרכזי "מארח" מתאם את התהליך ומטרתו לשפר מודל חיזוי לצרכיו, כגון חיזוי סיבוכים ביחידה לטיפול נמרץ. בתי חולים אחרים, המכונים נבדקים, משתתפים בתמורה לפיצוי. הסידור הזה ממנע העברת רשומות רגישות בין מוסדות, אך מעלה שתי שאלות קשות: כיצד לעבוד עם מערכות רשומות שונות רבות, וכיצד להימנע מתשלום לשותפים שאינם מסייעים בפועל למודל.

הפיכת רשומות מסורבלות לשפה משותפת

מערכות רשומות רפואיות אלקטרוניות שונות מאוד באופן שבהן מתויגים ומקודדים מידע. בית חולים אחד עשוי לאחסן בדיקת סוכר בקוד מספרי, בעוד שאחר משתמש בקוד שונה לאותה בדיקה. פתרונות מסורתיים מנסים להמיר הכל לתקן אחד מעוצב בקפידה, שזה יקר ודורש שעות מומחים רבות. במקום זאת, המסגרת המוצעת, שנקראת EHRFL, ממירה כל אירוע רפואי לקטע טקסט קצר. למשל, ערך מעבדה כמו מדידת גלוקוז נהפך לביטוי כגון "אירוע מעבדה גלוקוז ערך 70 mg/dL." מכיוון שכל בית חולים כבר מחזיק מילונים שממפים קודים מקומיים לשמות קריאים לבני אדם, ניתן לבצע המרה זו אוטומטית ללא התאמות ידניות מיוחדות.

בניית פרופילים של מטופלים מטקסט

לאחר שהאירועים נכתבים כטקסט, EHRFL משתמש במודלים מודרניים לעיבוד שפה כדי להפוך כל אירוע לווקטור מספרי, ואז משלב אירועים רבים ל"הטמעת מטופל" אחת — תקציר קומפקטי של ההיסטוריה הרפואית של האדם במסגרת חלון זמן. הטמעות אלה מוזנות לשכבת חיזוי המתמודדת עם מספר משימות קליניות בו‑זמנית, כגון חיזוי מוות במהלך אשפוז או נזק כלייתי לאחר קבלה לטיפול נמרץ. המחברים מבצעים אימון פדרלי על חמישה מאגרי נתונים גדולים ומעולם האשפוז הקריטי, שמקיפים בתי חולים, תקופות זמן ומערכות רשומות שונות. במשכיות של אלגוריתמים שונים, כולל שיטות פדרציה נפוצות, מודלים שאומנו בגישה מבוססת‑טקסט מבצעים בעקביות טוב יותר ממודל שאומן על בית חולים יחיד בלבד, אף על פי שהפורמטים הבסיסיים של הנתונים שונים.

בחירת השותפים הנכונים תוך הגנה על פרטיות

יותר בתי חולים משתתפים לא תמיד משמעו תוצאות טובות יותר. יש מוסדות שבהם אוכלוסיות המטופלים או דפוסי הרישום שונים כל כך מהמארח, שהכללתם עלולה להאט את האימון או לפגוע בביצועים בצורה קלה, בעוד שעדיין ייצרו עלות. כדי לטפל בכך, המחברים מציעים שלב בחירה המבוסס על דמיון בין הטמעת המטופלים הממוצעת של בתי החולים. המארח מאמן תחילה מודל על הנתונים שלו, משתף את משקליו, וכל בית חולים מועמד משתמש בהם כדי לחשב הטמעות מטופלים. להגנה על הפרטיות, כל נבדק גוזר ערכים קיצוניים מההטמעות שלו, מממץ אותם לווקטור ממוצע אחד, ואז מוסיף רעש אקראי מכויל בקפידה לפני שליחת הממוצע הרועש בלבד אל המארח. המארח משווה את הממוצע שלו לזה של כל נבדק באמצעות מדדי דמיון פשוטים ובוחר רק את בתי החולים הדומים ביותר להצטרף לריצת הפדרציה המלאה.

חיסכון בכסף מבלי לאבד דיוק

ניסויים מראים שהדמיון בין הטמעות המטופלים הממוצעות של בתי החולים מתיישב עם כמה כל בית חולים תורם או פוגע בביצועי החיזוי של המארח. שימוש באותאות אלה לבחירת שותפים מאפשר למארח להסיר בתי חולים בעלי דמיון נמוך תוך שמירה או אפילו שיפור איכות החיזוי בהשוואה לשימוש בכל האתרים הזמינים. המחברים גם מפרטים מודל עלויות שמראה שבגלל שעמלות שימוש בנתונים וזמני אימון גדלים עם מספר בתי החולים המשתתפים, אפילו צמצום מתון במספר השותפים יכול להוביל לחיסכון משמעותי. במקביל, שלב הבחירה קל־משקל: המודל מאומן פעם אחת, וכל בית חולים מבצע רק חישובים פשוטים על וקטור ממוצע יחיד.

מה זה אומר לעתיד הבינה הרפואית

לקוראים מחוץ לתחום, המסר המרכזי הוא שאולי ניתן ש"לבתי חולים ללמוד ביחד" ללא איסוף רשומות מטופלים גולמיות, ובאופן שמכבד הן את הפרטיות והן את המגבלות התקציביות. על ידי תרגום רשומות מגוונות לצורת טקסט משותפת ואז שימוש בסיכומי אוכלוסיות שומרי‑פרטיות כדי לבחור שותפים תואמים, EHRFL מציעה מתכון מעשי לבניית כלי חיזוי המותאמים לבית חולים ספציפי. בעוד שהמחקר מתמקד בנתוני טיפול נמרץ, אותן רעיונות יכולות להרחיב לקליניקות החוץ, חדרי מיון ואף לתחומים שאינם רפואיים שבהם ארגונים רוצים לשתף פעולה על מודלים טובים יותר מבלי לוותר על שליטה בנתוניהם.

ציטוט: Kim, J., Kim, J., Hur, K. et al. Federated learning for heterogeneous electronic health record systems with cost effective participant selection. Sci Rep 16, 6876 (2026). https://doi.org/10.1038/s41598-026-38299-9

מילות מפתח: למידת פדרציה, רשומות רפואיות אלקטרוניות, פרטיות המטופל, חיזוי קליני, בינה מלאכותית בתחום הבריאות