Clear Sky Science · he

גישות של חלוקה ואיחוי להתאמת רגרסיה לוגיסטית לנתוני מעקב בריאות בהיקף רחב: יישום לחיזוי סיכון לסכרת ב-BRFSS

· חזרה לאינדקס

מדוע סקרים בריאותיים בהיקף רחב חשובים לסכרת

מספר האנשים הנפגעים מסכרת גדל מדי שנה, ובכל זאת מערכות הבריאות מתקשות לזהות מי בסיכון מוקדם מספיק כדי למנוע סיבוכים חמורים. מדינות אוספות סקרים בריאותיים עצומים עם מיליוני מבוגרים, אך הקבצים הענקיים הללו קשים לניתוח במחשבים רגילים. המחקר הזה מראה כיצד שיטה מתוחכמת של חיתוך ואיחוי של נתונים יכולה להפוך את אותם סקרים קשים לעבודה לכלי מעשי לחיזוי מי נוטה לפתח סכרת, מבלי להזדקק לסופרמחשב.

Figure 1. חיתוך סקר בריאות ענק לחלקים קטנים יותר, דגימת כל חלק בנפרד ואז איחוי כדי לחזות סיכון לסכרת בצורה יעילה.
Figure 1. חיתוך סקר בריאות ענק לחלקים קטנים יותר, דגימת כל חלק בנפרד ואז איחוי כדי לחזות סיכון לסכרת בצורה יעילה.

חיתוך נתונים גדולים לנגיסים

המחברים מתמקדים בטכניקה הנקראת חלוקה ואיחוי, שמתייחסת לסט נתונים מסיבי כאל כיכר לחם שניתן לפרוס לפרוסות ולחבר שוב. במקום להריץ מודל סטטיסטי ענק על כל הנתונים בבת אחת, הם חותכים את הנתונים לחלקים קטנים יותר, מתאימים את אותו מודל חיזוי לכל חלק בנפרד, ואז מאחדים את התוצאות באופן מעקרוני. הרעיון המרכזי הוא שלכל פרוסת נתונים יש מידע על הקשר בין גורמי סיכון לסכרת, וניתן למזג את החלקים האלה באמצעות משקלים מתמטיים המשקפים כמה מידע כל פרוסה מכילה.

בדיקה קשה לשיטה

כדי לבחון האם אסטרטגיית החיתוך והאיחוי אמינה, הצוות הריץ תחילה ניסוי חישובי גדול עם נתונים מדומים. הם יצרו חמש מיליון מטופלים וירטואליים שוב ושוב, כל אחד עם מספר גורמי סיכון ועם יחס "אמיתי" ידוע לסכרת. לאחר מכן הם השוו ניתוח מסורתי של כל מערך הנתונים לגישת החלוקה והאיחוי תחת מספרים שונים של פרוסות. התוצאות היו מרשימות: שיטת החלוקה נתנה תשובות כמעט זהות, עם שגיאות שהשתנו רק במקום העשירי־אלי הרביעי, בעוד שזמני החישוב קוצצו בכ־50% ודרישות הזיכרון ירדו עד לכמעט תשעים אחוז.

Figure 2. מספר מודלים קטנים של נתונים התורמים למודל משולב אחד שמניב דפוסי סיכון לסכרת זהים לניתוח על כל הנתונים.
Figure 2. מספר מודלים קטנים של נתונים התורמים למודל משולב אחד שמניב דפוסי סיכון לסכרת זהים לניתוח על כל הנתונים.

בדיקת השיטה על אמריקאים אמיתיים

בהמשך חזרו החוקרים לסקר Behavioral Risk Factor Surveillance System, סקר טלפוני ארוך טווח בארה"ב העוקב אחר הרגלים ומצבי בריאות. הם שאבו נתונים משנים 2014 עד 2024 עבור מבוגרים בגיל 40 ומעלה, וסיכמו כמעט 2.5 מיליון אנשים ועליהם מידע על 16 גורמים כגון גיל, משקל גוף, פעילות גופנית, עישון, הכנסה והערכה עצמית של הבריאות. לאחר ניקוי זהיר של הנתונים וערבוב סדר הנבדקים, הם חילקו את הסקר לעשרות חתיכות ניתנות להתמודדות, התאמנו על כל חלק את מודל הסיכון לסכרת, ואיחדו את התוצאות. הם גם הריצו שתי שיטות סטנדרטיות המשתמשות בכל הנתונים בבת אחת, כדי לבדוק האם התשובות תואמות.

מה הנתונים אומרים על סיכון לסכרת

תוצאות השילוב של החלוקה והאיחוי התאימו כמעט במדויק לניתוחים המסורתיים, ואישרו שהקיצור אינו מעוות את הממצא המדעי. המודל השיב דפוסים ידועים: הסיכוי לסכרת עולה באופן חד עם הגיל, והוא גבוה בכמה פעמים אצל אנשים עם השמנת יתר בהשוואה לקטגוריית משקל תקינה. אנשים המדווחים על בריאות כללית בינונית או גרועה, שאינם מתאמנים, או שמעשנים כיום, הציגו גם הם סיכוי גבוה יותר. לעומת זאת, הכנסה גבוהה יותר ויותר שנות לימוד נקשרו לסיכוי נמוך יותר, גם אחרי התאמה למשקל והרגלים, דבר שמצביע על תפקיד התנאים החברתיים. חלק מהמחלות כרוניות בסקר הראו קשרים הפוכים מבלבלים עם סכרת, שהמחברים מייחסים להישרדות ולאיכויות המדידה במחקר חתך בנקודת זמן אחת יותר מאשר להגנה אמיתית.

מה המשמעות להחלטות בריאות יומיומיות

עבור הקהל הרחב, המסר המרכזי הוא שסקרים לאומיים קיימים על הבריאות ניתנים להפיכה לכלי אמין לחישוב סיכון לסכרת באמצעות מחשבים רגילים. אסטרטגיית החלוקה והאיחוי שומרת על איכות סטטיסטית של השיטות המסורתיות תוך שהיא מאפשרת לעבוד עם מיליוני רשומות. זה מקל על סוכנויות בריאות ציבורית וחוקרים בעלי משאבים מוגבלים לעקוב אחרי מי בסיכון, לכוון תכניות מניעה לקשישים עם השמנת יתר והכנסה נמוכה, ולעדכן מסקנות אלה כששנים חדשות של סקר מצטרפות. השיטה אינה מרפאת סכרת, אבל היא עוזרת לחברה להשתמש בנתוניה בחכמה רבה יותר למניעה ולניהול המחלה.

ציטוט: Nayem, M.M.H., Biswas, S.C. Divide and recombine approaches for fitting logistic regression to large-scale health surveillance data: application to diabetes risk prediction in BRFSS. Sci Rep 16, 15980 (2026). https://doi.org/10.1038/s41598-026-46927-7

מילות מפתח: סיכון לסכרת, נתוני בריאות גדולים, רגרסיה לוגיסטית, סקר BRFSS, חלוקה ואיחוי