Clear Sky Science · pl

Modelowanie na dużą skalę do przewidywania stanu mieszkań przy użyciu algorytmów uczenia maszynowego

2026-03-11 · Powrót do spisu

Dlaczego stan naszych domów ma znaczenie

Czy dom jest bezpieczny, suchy i komfortowy wpływa na wszystko — od zdrowia dziecka po stabilność finansową rodziny. Mimo że ceny domów śledzimy czasem aż do konkretnych ulic, rzadko mamy równie szczegółowy obraz samej jakości mieszkań. Badanie to zajmuje się tym brakującym ogniwem, wykorzystując nowoczesne techniki komputerowe do oszacowania stanu niemal każdej jednostki mieszkalnej w Stanach Zjednoczonych, tworząc mapy pokazujące, gdzie domy mają się dobrze, a gdzie mogą narażać mieszkańców na ryzyko.

Od cen domów do jakości zamieszkania

Naukowcy od dawna modelują wartość nieruchomości, lecz znacznie mniej wiadomo o tym, jak nadają się one do zamieszkania. Istniejące badania ogólnokrajowe dają jedynie przybliżone migawki, często na poziomie całych stanów czy obszarów metropolitalnych, a wiele zestawów danych rządowych skupia się na przystępności cenowej lub zatłoczeniu, a nie na fizycznym stanie budynków. Ponieważ lokalne agencje zbierają i oceniają mieszkania w różnych sposób, brakowało ujednoliconego, szczegółowego obrazu warunków mieszkaniowych w całym kraju. Ta luka utrudnia planistom, służbom zdrowia i społecznościom zobaczenie, gdzie w niskiej jakości mieszkaniach mogą kumulować się zagrożenia, takie jak pleśń, przecieki, skrajne temperatury wewnątrz czy niebezpieczne konstrukcje.

Wprowadzanie big data na poziom sąsiedztwa

Aby wypełnić tę lukę, autorzy połączyli dwa główne źródła danych. Pierwsze to ogólnokrajowa baza nieruchomości zawierająca ponad 111 milionów jednostek mieszkaniowych, z takimi szczegółami jak liczba sypialni i łazienek, rok budowy i remontu, materiały dachu i elewacji, system ogrzewania, parking, podatki oraz — gdy dostępne — sześciostopniowa ocena stanu budynku od „niezdatny” do „doskonały”. Drugim źródłem są dane z US Census i powiązane informacje o sąsiedztwie, opisujące lokalne poziomy dochodów, wartości domów, udział właścicieli i domów mobilnych, gęstość zaludnienia, ubóstwo oraz to, czy obszar jest bardziej miejski czy wiejski. Poprzez przestrzenne dopasowanie każdej nieruchomości do otaczającego ją obszaru spisu ludności lub grupy bloków, zespół stworzył ujednolicony rekord łączący cechy budynku z kontekstem społeczno-ekonomicznym każdego domu.

Uczenie maszyn rozpoznawania stanu mieszkań

Około połowa nieruchomości w bazie nie miała oficjalnej oceny stanu. Badacze wytrenowali trzy zaawansowane modele uczenia maszynowego — CatBoost, LightGBM i XGBoost — na domach, które miały oceny, ucząc algorytmy, jak kombinacje cech nieruchomości i sąsiedztwa wiążą się ze stanem mieszkalnym. Starannie oczyszczali dane, radzili sobie z wartościami odstającymi i brakami, a do wyszukiwania najlepszych ustawień modeli użyli klastra obliczeń wysokiej wydajności — wyposażonego w potężne procesory graficzne. Aby uniknąć modeli, które po prostu „zapamiętują” dane treningowe, stosowali zbalansowaną dokładność i walidację krzyżową, a następnie dodatkowo dostroili zwycięski model tak, by jego estymowane prawdopodobieństwa jak najwierniej odpowiadały rzeczywistym wynikom.

Przekształcanie prognoz w użyteczne mapy

Gdy wybrano najlepiej działający model (CatBoost), użyto go do przewidzenia ocen stanu dla milionów domów z brakującymi informacjami. Kategorię każdego domu przetłumaczono na wartość liczbową od jednego (najgorszy) do sześciu (najlepszy). Aby chronić prywatność i ułatwić dostrzeżenie wzorców, badacze uśredniali te wyniki w trzech typach obszarów: trakta spisowego, obszarów tabulacyjnych kodów pocztowych oraz regularnej siatki heksagonów o powierzchni około 36 kilometrów kwadratowych pokrywającej cały kraj. Efektem jest zestaw map krajowych odsłaniających szerokie krajobrazy jakości mieszkań, a jednocześnie wystarczająco szczegółowych, by kierować analizą lokalną. Zespół sprawdził też jakość modelu za pomocą kilku testów statystycznych, znajdując umiarkowaną, lecz istotną zgodność biorąc pod uwagę rozmiar i złożoność zadania.

Co napędza lepsze lub gorsze mieszkania

Analizując, które dane wejściowe miały największe znaczenie dla modelu, badanie dostarcza wskazówek, co wpływa na stan mieszkań. Dominowały cechy na poziomie nieruchomości: szacowana kwota podatku, rodzaj pokrycia zewnętrznego, typ dachu, system ogrzewania oraz wiek i historia remontów domu były szczególnie wpływowe. Czynniki sąsiedzkie, takie jak wskaźniki ubóstwa, gęstość zaludnienia i udział domów mobilnych, odgrywały mniejszą, lecz nadal ważną rolę. Wyniki te zgadzają się z szerszymi badaniami pokazującymi, że gospodarstwa o niższych dochodach, najemcy i społeczności mniejszościowe częściej mieszkają w warunkach substandardowych, co jest ukształtowane częściowo przez nierówne praktyki kredytowe i nieregularne egzekwowanie ochrony mieszkaniowej.

Nowe narzędzie dla bezpieczniejszego i sprawiedliwszego mieszkalnictwa

Mówiąc najprościej, ta praca wykorzystuje wzorce w istniejących rejestrach, by wypełnić brakujące fragmenty ogólnokrajowej układanki dotyczącej jakości mieszkań. Powstałe publicznie dostępne mapy i zestawy danych dają planistom, agencjom zdrowia i grupom społecznym potężne nowe narzędzie do zlokalizowania, gdzie domy mogą narażać mieszkańców na ryzyko i gdzie inwestycje przyniosłyby największe korzyści. Choć żaden model nie jest doskonały, szczególnie przy pracy na nierównych danych źródłowych, podejście na dużą skalę stanowi znaczący krok w kierunku zrozumienia — i ostatecznie poprawy — codziennych środowisk, które ludzie nazywają domem.

Cytowanie: Kim, K., Holmes, T., Powell, E. et al. Large-scale modeling for housing condition prediction using machine learning algorithms. Sci Data 13, 647 (2026). https://doi.org/10.1038/s41597-026-07012-w

Słowa kluczowe: jakość mieszkań, uczenie maszynowe, dane przestrzenne, zdrowie publiczne, planowanie miejskie