Clear Sky Science · he

מודליות בקנה מידה רחב לחיזוי מצב הדיור באמצעות אלגוריתמים של למידת מכונה

· חזרה לאינדקס

מדוע מצב הבתים שלנו חשוב

האם בית בטוח, יבש ונוח יכול לעצב כל דבר, מהבריאות של ילד ועד היציבות הכלכלית של משפחה. עם זאת, בעוד שאנו עוקבים אחר מחירי דירות עד לרמת הרחובות, נדיר שיש לנו תמונה מפורטת דומה של איכות הדיור עצמה. המחקר הזה מתמודד עם הנקודה העיוורת הזו באמצעות טכניקות מחשוב מודרניות להערכת מצב כמעט כל יחידת דיור בארצות הברית, ויוצר מפות שמראות איפה הבתים משגשגים ואיפה הם עלולים לסכן את הדיירים.

Figure 1
Figure 1.

ממחירי דירות לאיכות הדיור

חוקרים כבר זמן רב ממחישים כמה שווים בתים, אך ידוע הרבה פחות עד כמה הם ראויים למגורים. סקרי לאום קיימים מספקים רק תמונות גסות, לעיתים ברמת מדינות שלמות או אזורים מטרופוליניים, ורבים ממאגרי המידע הממשלתיים מתמקדים בזמינות כלכלית או בצפיפות במקום במצב הפיזי של המבנים. מאחר שסוכנויות מקומיות אוספות ומדרגות דיור בדרכים שונות, לא הייתה תמונה מאוחדת ומפורטת של מצבי הדיור ברחבי המדינה. הפער הזה מקשה על מתכננים, רשויות בריאות וקהילות לראות היכן דיור באיכות ירודה עשוי לרכז סיכונים כגון עובש, נזילות, טמפרטורות פנימיות קיצוניות או מבנים בלתי בטוחים.

להכניס דאטה גדולה לשכונה

כדי למלא את הפער הזה, הכותבים שילבו שני מקורות נתונים מרכזיים. הראשון הוא מאגר נכסים ארצי המכיל מעל 111 מיליון יחידות דיור, כולל פרטים כמו מספר חדרי שינה וחדרי רחצה, שנת בנייה ושיפוץ, חומרי גג וחזית, מערכת חימום, חנייה, מיסים, וכשזמין—דירוג מצב המבנה בשש רמות מ"בלתי תקין" ועד "מצוין". המקור השני הוא נתוני מפקד האוכלוסין האמריקאי ונתונים שכונתיים קשורים, שמתארים רמות הכנסה מקומיות, ערכי בתים, שיעור בעלי בתים ובתי ניידים, צפיפות אוכלוסייה, עוני והאם האזור עירוני או כפרי. על ידי התאמה מרחבית של כל נכס ליחידת המפקד או לקטע גיאוגרפי מקומי, הצוות יצר רשומה מאוחדת שמקשרת תכונות בניין עם ההקשר החברתי-כלכלי סביב כל בית.

להדריך מכונות לזהות בריאות הדיור

כמעט מחצית מהנכסים במאגר חסרו דירוג מצב רשמי. החוקרים אילפו שלושה מודלים מתקדמים של למידת מכונה—CatBoost, LightGBM ו-XGBoost—על הבתים שכן קיבלו דירוגים, וביקשו מהאלגוריתמים ללמוד כיצד צירופים של תכונות הנכס והקהילה מתקשרים למצב הדיור. הם ניקו את הנתונים בקפידה, טיפלו בערכים קיצוניים ובחסרים, והשתמשו באשכול מחשוב ביצועים גבוהים—כולל מעבדי גרפיקה חזקים—כדי לחפש באופן יעיל את הגדרות המודל הטובות ביותר. כדי למנוע מהמודלים פשוט "לשנן" את נתוני האימון, הם השתמשו בדיוק מאוזן ובאימות מוצלב, ולאחר מכן כיווננו עוד יותר את המודל המנצח כך שההסתברויות המוערכות שלו יתאימו לתוצאות מהעולם האמיתי ככל האפשר.

Figure 2
Figure 2.

להפוך תחזיות למפות שימושיות

לאחר שנבחר המודל בעל הביצועים הטובים ביותר (CatBoost), הוא שימש לחיזוי דירוגי מצב עבור מיליוני הבתים עם מידע חסר. קטגוריית כל בית תורגמה לציון מספרי מאחד (הגרוע ביותר) עד שש (הטוב ביותר). כדי להגן על פרטיות ולהקל על זיהוי דפוסים, החוקרים ממוצעו את הציונים האלה על פני שלושה סוגי אזורים: יחידות מפקד אוכלוסין (census tracts), אזורי טבלאות מיקוד (ZIP code tabulation areas), ורשת קבועה של משושים בגודל כ-36 קמ"ר שמכסה את כל המדינה. התוצאה היא קבוצת מפות ארציות החושפות נופים רחבים של איכות דיור ועדיין מספיק מפורטות להנחות ניתוח מקומי. הצוות גם בדק עד כמה המודל הצליח באמצעות מספר בדיקות סטטיסטיות, ומצא הסכמה מתונה אך משמעותית בהתחשב בגודל ובמורכבות המשימה.

מה משפיע על בתים טובים או גרועים יותר

על ידי בחינה אילו קלטים היו החשובים ביותר למודל, המחקר מציע רמזים לגבי הגורמים המשפיעים על מצב הדיור. תכונות ברמת הנכס שלטו: סכום המס המשוער, ציפוי החזית, סוג הגג, מערכת החימום, וגיל והיסטוריית השיפוצים של הבית היו בעלי השפעה בולטת. גורמי שכונה כמו שיעורי העוני, צפיפות האוכלוסייה ושיעור הבתים הניידים שיחקו תפקיד קטן יותר אך עדיין חשוב. ממצאים אלה משתלבים עם מחקרים רחבים יותר המראים שמשקי בית בעלי הכנסה נמוכה יותר, שוכרים וקהילות מיעוטים נוטים יותר לגור בבתים מתחת לסטנדרט, הנגזרים בחלקם מתנאי אשראי לא שוויוניים ואכיפת הגנות דיור בלתי אחידה.

כלי חדש לדיור בטוח והוגן יותר

במונחים פשוטים, עבודה זו משתמשת בדפוסים ברשומות קיימות כדי למלא את החלקים החסרים בפאזל ארצי של איכות הדיור. המפות וקבוצות הנתונים הזמינות לציבור מספקות למתכננים, לסוכנויות הבריאות ולארגוני הקהילה כלי חדש ועוצמתי לראות היכן בתים עלולים לסכן דיירים והיכן השקעות עשויות לתת את התשואה הגדולה ביותר. אף שמודל אינו מושלם, במיוחד כשעובדים עם נתונים בסיסיים לא אחידים, גישה בקנה מידה רחב זו מהווה צעד משמעותי לקראת הבנה—and בסופו של דבר שיפור—הסביבות היומיומיות שאנשים קוראים להן בית.

ציטוט: Kim, K., Holmes, T., Powell, E. et al. Large-scale modeling for housing condition prediction using machine learning algorithms. Sci Data 13, 647 (2026). https://doi.org/10.1038/s41597-026-07012-w

מילות מפתח: איכות הדיור, למידת מכונה, נתונים מרחביים, בריאות הציבור, תכנון עירוני