Clear Sky Science · it

Modellazione su larga scala per la previsione dello stato degli alloggi mediante algoritmi di machine learning

· Torna all'indice

Perché conta lo stato delle nostre abitazioni

Se una casa è sicura, asciutta e confortevole può influenzare tutto, dalla salute di un bambino alla stabilità economica di una famiglia. Eppure, mentre seguiamo i prezzi delle abitazioni fino a singole strade, raramente disponiamo di un quadro altrettanto dettagliato della qualità abitativa stessa. Questo studio affronta quel punto cieco usando tecniche informatiche moderne per stimare le condizioni di quasi tutte le unità abitative negli Stati Uniti, creando mappe che mostrano dove le case sono in buona salute e dove potrebbero mettere a rischio i residenti.

Figure 1
Figure 1.

Dai prezzi delle case alla qualità abitativa

I ricercatori da tempo modellano il valore delle abitazioni, ma si sa molto meno su quanto siano vivibili quelle case. I sondaggi nazionali esistenti offrono solo istantanee grossolane, spesso a livello di interi stati o aree metropolitane, e molti set di dati governativi si concentrano più sull’accessibilità o sul sovraffollamento che sulla condizione fisica degli edifici. Poiché le agenzie locali raccolgono e valutano gli alloggi in modi diversi, non è mai esistita una visione unificata e dettagliata delle condizioni abitative a livello nazionale. Questa lacuna rende difficile per pianificatori, operatori sanitari e comunità vedere dove l’abitazione di scarsa qualità può concentrare rischi come muffa, infiltrazioni, temperature interne estreme o strutture non sicure.

Portare i big data nel quartiere

Per colmare questa lacuna, gli autori hanno combinato due grandi fonti di dati. La prima è un database immobiliare nazionale contenente oltre 111 milioni di unità abitative, con dettagli come numero di camere da letto e bagni, anno di costruzione e di ristrutturazione, materiali del tetto e delle facciate, impianto di riscaldamento, parcheggio, tasse e—quando disponibile—una valutazione in sei livelli delle condizioni dell’edificio da “insalubre” a “eccellente”. La seconda fonte sono i dati del censimento USA e dati di contesto del quartiere, che descrivono i livelli di reddito locali, i valori delle abitazioni, la quota di proprietari e di case mobili, la densità di popolazione, la povertà e se un’area è più urbana o rurale. Abbinando spazialmente ogni proprietà al suo census tract o block group circostante, il team ha creato un record unificato che collega le caratteristiche dell’edificio con il contesto socioeconomico attorno a ciascuna abitazione.

Insegnare alle macchine a riconoscere la salute abitativa

Circa la metà delle proprietà nel database non aveva una valutazione ufficiale delle condizioni. I ricercatori hanno addestrato tre modelli avanzati di machine learning—CatBoost, LightGBM e XGBoost—sulle case che avevano valutazioni, chiedendo agli algoritmi di imparare come le combinazioni di caratteristiche della proprietà e del quartiere si relazionano con la condizione abitativa. Hanno accuratamente pulito i dati, gestito valori anomali e mancanti, e utilizzato un cluster di calcolo ad alte prestazioni—completo di potenti processori grafici—per cercare in modo efficiente le migliori configurazioni del modello. Per evitare modelli che “memorizzassero” semplicemente i dati di addestramento, hanno impiegato metriche come l’accuratezza bilanciata e la validazione incrociata, quindi hanno ulteriormente perfezionato il modello vincente affinché le probabilità stimate corrispondessero il più possibile agli esiti reali.

Figure 2
Figure 2.

Trasformare le previsioni in mappe utili

Una volta scelto il modello con le migliori prestazioni (CatBoost), è stato usato per prevedere le valutazioni delle condizioni per i milioni di case prive di informazione. La categoria di ciascuna abitazione è stata tradotta in un punteggio numerico da uno (peggiore) a sei (migliore). Per proteggere la privacy e rendere i pattern più facili da interpretare, i ricercatori hanno poi mediato questi punteggi su tre tipi di aree: census tract, aree di tabulazione dei codici ZIP e una griglia regolare di esagoni di circa 36 chilometri quadrati che copre l’intero territorio nazionale. Il risultato è un insieme di mappe nazionali che rivelano vaste aree della qualità abitativa pur essendo sufficientemente dettagliate per guidare analisi locali. Il team ha inoltre verificato le prestazioni del modello con molteplici test statistici, riscontrando un accordo moderato ma significativo dato l’ampiezza e la complessità del compito.

Cosa determina case migliori o peggiori

Esaminando quali input influenzavano maggiormente il modello, lo studio offre indizi su cosa guida la condizione degli alloggi. A prevalere sono state le caratteristiche a livello di proprietà: importo stimato delle tasse, rivestimento esterno, tipo di tetto, sistema di riscaldamento e l’età e la storia delle ristrutturazioni di una casa sono risultati particolarmente influenti. Fattori di quartiere come i tassi di povertà, la densità di popolazione e la quota di case mobili hanno avuto un ruolo più piccolo ma comunque importante. Questi risultati sono coerenti con ricerche più ampie che mostrano come le famiglie a basso reddito, gli affittuari e le comunità di colore siano più inclini a vivere in abitazioni inadeguate, in parte plasmato da pratiche di credito diseguali e da un’applicazione non uniforme delle tutele abitative.

Un nuovo strumento per abitazioni più sicure e più eque

In termini semplici, questo lavoro usa i pattern presenti nei registri esistenti per ricostruire i pezzi mancanti di un puzzle nazionale sulla qualità abitativa. Le mappe e i set di dati risultanti, resi disponibili pubblicamente, offrono a pianificatori, agenzie sanitarie e gruppi comunitari un nuovo strumento potente per vedere dove le case possono mettere a rischio i residenti e dove gli investimenti potrebbero dare i maggiori benefici. Pur nessun modello essendo perfetto, specialmente quando si lavora con dati di base disomogenei, questo approccio su larga scala rappresenta un passo importante verso la comprensione—e in ultima analisi il miglioramento—degli ambienti quotidiani che le persone chiamano casa.

Citazione: Kim, K., Holmes, T., Powell, E. et al. Large-scale modeling for housing condition prediction using machine learning algorithms. Sci Data 13, 647 (2026). https://doi.org/10.1038/s41597-026-07012-w

Parole chiave: qualità abitativa, machine learning, dati spaziali, sanità pubblica, pianificazione urbana