Clear Sky Science · he

שיטה להגנת פרטיות נתונים עבור מודלי חיזוי מחלות מדבקות עם איזון בין מהירות אימון לדיוק

2026-02-05 · חזרה לאינדקס

מדוע הגנה על נתוני בריאות עדיין חשובה

בתי חולים וסוכנויות בריאות מסתמכים כיום על בינה מלאכותית כדי לחזות התפרצויות של שפעת, COVID-19 ומחלות זיהומיות אחרות ימים או שבועות מראש. תחזיות אלה יכולות להנחות קמפיינים לחיסון, תכנון כוח אדם ותכנון חירום. עם זאת, אותם רשומות מטופלים מפורטות שהופכות את התחזיות למדויקות הן גם רגישות מאוד. חוקים ודאגה ציבורית לעתים מונעים איחוד נתונים בין מוסדות, מה שמחליש את כוחם של מודלים אלה. מאמר זה מציג דרך לאמן מערכות חיזוי מחלות מדבקות באיכות גבוהה תוך שמירה על נתוני כל בית חולים נעולים ובטוחים באתר.

ללמוד ממספר בתי חולים בלי לשתף תיקים

המחברים בונים על טכניקה שנקראת למידה פדרטיבית, שבה מספר בתי חולים מאמנים יחד מודל חיזוי משותף. במקום להעתיק רשומות מטופלים גולמיות לשרת מרכזי, כל אתר מאמן את המודל מקומית ושולח בחזרה רק עדכונים מספריים להגדרות הפנימיות של המודל. שרת מרכזי משלב את העדכונים ושולח את המודל המשופר חזרה. לולאה זו חוזרת פעמים רבות. תאורטית, למידה פדרטיבית מגנה על הפרטיות מכיוון שמידע אישי אף פעם לא עוזב את המבנה. בפועל, עם זאת, תוקפים מוכשרים יכולים לפעמים להסיק פרטים על הנתונים הבסיסיים מהעדכונים המשותפים, ולכן יש צורך בהגנה נוספת.

לנעול את המספרים עם הצפנה חכמה

כדי להקשיח את האבטחה, הצוות משתמש בהצפנה הומומורפית — צורת נעילה דיגיטלית שמאפשרת לבצע חישובים ישירות על מספרים מוצפנים, מבלי לראותם בפורמט ברור. סכמות מסורתיות מסוג זה בטוחות מאוד אך ידועות כעמוסות באיטיות ובדרישות זיכרון, מה שמקשה על השימוש בהן עם מודלים גדולים ומורכבים כגון רשתות זיכרון לטווח ארוך (LSTM). החוקרים מעצבים סכימה היברידית המתייחסת לחלקים שונים של המודל באופן שונה. הרכיבים המפלשרים ביותר מוגנים בהצפנה חזקה אך כבדה, בעוד שחלקים פחות רגישים משתמשים בנעילה קלה ומהירה יותר. בנוסף למהלך זה, לוח זמנים אקראי מתוכנן מראש מחליט באילו סבבי אימון אתרים שולחים בפועל עדכונים מוצפנים, מה שמאפשר להם לדלג על תקשורת מיותרת. ניסויים מראים כי שילוב זה מזרז את האימון בכ־25 אחוזים בהשוואה לשימוש בהצפנה הכבדה בכל מקום, תוך שמירה על הגנה תחת הנחות קריפטוגרפיות חזקות.

לשלוח רק את העדכונים שבאמת חשובים

גם עם נעילה חכמה, שיגור כל שינוי זעיר במודל הלוך ושוב בין מוסדות מבזבז זמן ורוחב פס ברשת. לכן המחברים מציעים כלל אימון חדש שנקרא בחירת נתונים–גרדיאנט סטוכסטי מבוזר מבוסס בחירה (DS-DSSGD). במהלך האימון, האלגוריתם מודד כמה כל חלק של המודל משתנה מצעד לצעד. רק עדכונים שעוברים סף שנקבע מראש מועברים; שינויים קטנים ובעלי השפעה נמוכה פשוט מתעלמים מהם. במקביל, האלגוריתם עוקב אילו נקודות נתונים אחראיות לשינויים הגדולים והמועילים ביותר. רשומות משפיעות אלה נאספות למאגר נתונים מעודן המשמש לסבב אימון סופי. ניסויים על שלוש שנות דיווחי זיהום אמיתיים מעיר ייצ'אנג, בשילוב עם מגמות חיפוש מקומיות ברשת, מראים כי DS-DSSGD מקצר את זמן האימון בכ־10 אחוזים בערך בהשוואה למספר שיטות סטנדרטיות, ללא הפסד משמעותי בדיוק החיזוי.

פלטפורמה מעשית לשיתוף פעולה מאובטח

התקדמות טכנית חשובה רק אם בתי חולים ומעבדות יכולים להשתמש בה בפועל. כדי להצמיד את הפער הזה, הצוות משלב את השיטות שלהם בסביבת מחשוב ממשית הנקראת פלטפורמת חישוב אבטחת פרטיות Yi Shu Fang XDP. XDP מנהלת את מסע נתוני הבריאות במלואו, מאיסוף וניקוי ועד ניתוח מוצפן ושיתוף תוצאות. היא תומכת בכלים מוכרים המשמשים סטטיסטיקאים, ביואינפורמטיקנים וקלינאים, ומאפשרת לחוקרים ממוסדות שונים לשתף פעולה בתוך סביבת עבודה נשלטת מבלי להוריד נתונים גולמיים. בתוך פלטפורמה זו, הסכימה ההיברידית של ההצפנה ואלגוריתם DS-DSSGD פועלים כרכיבים מודולריים ניתנים להצמדה, והופכים את המסגרת התיאורטית למערכת עובדת.

מה משמעות הדבר עבור חיזוי התפרצויות בעתיד

במונחים יומיומיים, מחקר זה מראה כי ניתן "להשיג את שניהם" בחיזוי מחלות מדבקות: לשמור על פרטיות המטופלים ועדיין לאמן מודלים מהירים ומדויקים על נתונים הנלקחים ממספר מוסדות. באמצעות הצפנה של חלקים שונים של המודל ברמות חוזק מתאימות, שליחת עדכונים רק בעת הצורך ועטיפת הכל בתוך פלטפורמת שיתוף פעולה מאובטחת, המחברים מצמצמים את עלות הפרטיות ממעמסה משתקת להוצאה ניהולית ברת־קיימא. אם שיטות כאלה יאומצו ברוחב, הן יכולות לאפשר לבתי חולים ולסוכנויות בריאות הציבור לאחד את הידע שלהם נגד המגפה הבאה מבלי לחשוף לעולם רשומות רפואיות פרטניות.

ציטוט: Wang, X., Jiang, Y., Pan, G. et al. A data privacy protection method for infectious disease prediction models with balanced training speed and accuracy. Sci Rep 16, 7415 (2026). https://doi.org/10.1038/s41598-026-38906-9

מילות מפתח: חיזוי מחלות מדבקות, פרטיות נתוני בריאות, למידה פדרטיבית, הצפנה הומומורפית, למידה עמוקה