Clear Sky Science · nl

Groot-schalige modellering voor voorspelling van woningconditie met machine learning-algoritmen

· Terug naar het overzicht

Waarom de staat van onze woningen ertoe doet

Of een woning veilig, droog en comfortabel is, kan alles beïnvloeden, van de gezondheid van een kind tot de financiële stabiliteit van een gezin. Terwijl we huizenprijzen tot op straatniveau volgen, hebben we zelden even gedetailleerde informatie over de kwaliteit van woningen zelf. Deze studie pakt dat blinde vlak aan door moderne computermethoden te gebruiken om de staat van bijna elk woonobject in de Verenigde Staten te schatten en kaarten te maken die laten zien waar woningen goed functioneren en waar ze mogelijk bewoners aan risico’s blootstellen.

Figure 1
Figure 1.

Van huizenprijzen naar woonkwaliteit

Onderzoekers modelleren al lange tijd hoeveel huizen waard zijn, maar veel minder is bekend over hoe bewoonbaar die huizen zijn. Bestaande nationale enquêtes bieden slechts ruwe momentopnames, vaak op het niveau van hele staten of metrogebieden, en veel overheidsdatasets richten zich op betaalbaarheid of overbevolking in plaats van op de fysieke staat van gebouwen. Omdat lokale instanties woningen op verschillende manieren verzamelen en beoordelen, is er geen uniforme, gedetailleerde kijk op woningcondities in het hele land geweest. Deze leemte maakt het moeilijk voor planners, gezondheidsfunctionarissen en gemeenschappen om te zien waar woningen van slechte kwaliteit risico’s kunnen concentreren, zoals schimmel, lekkages, extreme binnentemperaturen of onveilige constructies.

Grote gegevens naar de buurt brengen

Om deze leemte te vullen, combineerden de auteurs twee belangrijke gegevensbronnen. De eerste is een nationaal vastgoedbestand met meer dan 111 miljoen woonunits, met details zoals aantal slaapkamers en badkamers, bouw- en renovatiejaar, dak- en buitenmaterialen, verwarmingssysteem, parkeergelegenheid, belastingen en—wanneer beschikbaar—een zesdelige beoordeling van de bouwkundige staat van “onbetrouwbaar” tot “uitstekend.” De tweede bron is Amerikaanse volkstellings- en buurtgegevens, die lokale inkomensniveaus, huizenwaarden, het aandeel huiseigenaren en mobiele woningen, bevolkingsdichtheid, armoede en of een gebied meer stedelijk of landelijk is, beschrijven. Door elke woning ruimtelijk te koppelen aan de omliggende census tract of block group, creëerde het team een verenigd record dat gebouwkenmerken koppelt aan de sociaal-economische context rond elk huis.

Machines leren de gezondheid van woningen herkennen

Ongeveer de helft van de panden in de database miste een officiële conditiebeoordeling. De onderzoekers trainden drie geavanceerde machine-learningmodellen—CatBoost, LightGBM en XGBoost—op de huizen die wél beoordelingen hadden, en vroegen de algoritmen te leren hoe combinaties van eigenschaps- en buurtkenmerken samenhangen met woningconditie. Ze reinigden de data zorgvuldig, gingen om met uitschieters en ontbrekende waarden, en gebruikten een high-performance computingcluster—met krachtige grafische processors—om efficiënt naar de beste modelinstellingen te zoeken. Om te voorkomen dat modellen simpelweg de trainingsdata ‘uit het hoofd leren’, gebruikten ze gebalanceerde nauwkeurigheid en cross-validatie, en verfijnden ze vervolgens het winnende model zodat de geschatte waarschijnlijkheden zo goed mogelijk overeenkomen met de werkelijke uitkomsten.

Figure 2
Figure 2.

Voorspellingen omzetten in bruikbare kaarten

Zodra het best presterende model (CatBoost) was gekozen, werd het gebruikt om conditiebeoordelingen te voorspellen voor de miljoenen woningen met ontbrekende informatie. De categorie van elk huis werd vertaald in een numerieke score van één (slechtst) tot zes (best). Om privacy te beschermen en patronen makkelijker zichtbaar te maken, voerden de onderzoekers deze scores gemiddeld uit over drie typen gebieden: census tracts, ZIP-code-tabelleringsgebieden en een regelmatig raster van zeshoeken van ongeveer 36 vierkante kilometer dat het hele land bedekt. Het resultaat is een reeks nationale kaarten die brede landschappen van woonkwaliteit onthullen, maar nog steeds gedetailleerd genoeg zijn voor lokale analyse. Het team controleerde ook hoe goed het model presteerde met meerdere statistische tests en vond een matige maar betekenisvolle overeenstemming gezien de omvang en complexiteit van de taak.

Wat betere of slechtere woningen aandrijft

Door te onderzoeken welke inputs het meest van belang waren voor het model, biedt de studie aanwijzingen over wat woningconditie bepaalt. Kenmerken op eigendomsniveau domineerden: geschatte belastingbedragen, buitenbekleding, daktype, verwarmingssysteem en de leeftijd en renovatiegeschiedenis van een woning waren vooral invloedrijk. Buurtfactoren zoals armoedecijfers, bevolkingsdichtheid en het aandeel mobiele woningen speelden een kleinere maar nog steeds belangrijke rol. Deze bevindingen sluiten aan bij breder onderzoek waaruit blijkt dat huishoudens met lagere inkomens, huurders en gemeenschappen van kleur vaker in ondermaatse woningen wonen, deels gevormd door ongelijke kredietpraktijken en onregelmatige handhaving van woonbescherming.

Een nieuw instrument voor veiliger, eerlijker wonen

In eenvoudige termen gebruikt dit werk patronen in bestaande registers om de missende stukjes van een nationale legpuzzel over woningkwaliteit in te vullen. De resulterende publiek beschikbare kaarten en datasets geven planners, gezondheidsinstanties en communitygroepen een krachtig nieuw middel om te zien waar woningen bewoners aan risico kunnen blootstellen en waar investeringen de grootste baten kunnen opleveren. Hoewel geen enkel model perfect is, zeker niet bij werken met ongelijkmatige onderliggende gegevens, markeert deze grootschalige aanpak een belangrijke stap naar het begrijpen—en uiteindelijk verbeteren—van de alledaagse omgevingen die mensen thuis noemen.

Bronvermelding: Kim, K., Holmes, T., Powell, E. et al. Large-scale modeling for housing condition prediction using machine learning algorithms. Sci Data 13, 647 (2026). https://doi.org/10.1038/s41597-026-07012-w

Trefwoorden: woonkwaliteit, machine learning, ruimtelijke gegevens, volksgezondheid, stedelijke planning