Clear Sky Science · pt

Modelagem em grande escala para previsão das condições habitacionais usando algoritmos de aprendizado de máquina

· Voltar ao índice

Por que o estado de nossas casas importa

Se uma moradia é segura, seca e confortável pode influenciar tudo, desde a saúde de uma criança até a estabilidade financeira de uma família. Porém, enquanto acompanhamos os preços das casas até ruas individuais, raramente dispomos de um panorama igualmente detalhado sobre a qualidade da habitação em si. Este estudo enfrenta essa lacuna ao empregar técnicas computacionais modernas para estimar a condição de quase todas as unidades habitacionais nos Estados Unidos, produzindo mapas que indicam onde as moradias prosperam e onde podem estar colocando os moradores em risco.

Figure 1
Figura 1.

Dos preços das casas à qualidade habitacional

Pesquisadores há muito tempo modelam o valor das residências, mas muito menos se sabe sobre quão habitáveis essas moradias são. Pesquisas nacionais existentes oferecem apenas instantâneos grosseiros, frequentemente ao nível de estados inteiros ou áreas metropolitanas, e muitos conjuntos de dados governamentais se concentram em acessibilidade ou superocupação em vez da condição física dos edifícios. Como agências locais coletam e classificam habitações de maneiras diferentes, não existia uma visão unificada e detalhada das condições habitacionais em todo o país. Essa lacuna dificulta que planejadores, autoridades de saúde e comunidades identifiquem onde moradias de baixa qualidade podem concentrar riscos como mofo, vazamentos, temperaturas internas extremas ou estruturas inseguras.

Trazer big data para o bairro

Para preencher essa lacuna, os autores combinaram duas grandes fontes de dados. A primeira é um banco de dados nacional de propriedades contendo mais de 111 milhões de unidades habitacionais, incluindo detalhes como número de quartos e banheiros, ano de construção e de reformas, materiais do telhado e do exterior, sistema de aquecimento, estacionamento, impostos e — quando disponível — uma classificação de condição do edifício em seis níveis, de “insalubre” a “excelente”. A segunda fonte são dados do Censo dos EUA e informações de vizinhança correlatas, que descrevem níveis de renda locais, valores das residências, proporção de proprietários e de casas móveis, densidade populacional, pobreza e se a área é mais urbana ou rural. Ao associar espacialmente cada propriedade ao seu census tract ou block group circundante, a equipe criou um registro unificado que vincula características do edifício ao contexto social e econômico ao redor de cada residência.

Ensinando máquinas a reconhecer a saúde das moradias

Cerca de metade das propriedades no banco de dados não possuía uma classificação oficial de condição. Os pesquisadores treinaram três modelos avançados de aprendizado de máquina — CatBoost, LightGBM e XGBoost — nas casas que tinham classificações, pedindo aos algoritmos que aprendessem como combinações de características da propriedade e da vizinhança se relacionam com a condição habitacional. Eles limparam cuidadosamente os dados, trataram outliers e valores ausentes, e usaram um cluster de computação de alto desempenho — com processadores gráficos potentes — para buscar de forma eficiente as melhores configurações de modelo. Para evitar que os modelos meramente “decorassem” os dados de treinamento, empregaram acurácia balanceada e validação cruzada, e então ajustaram ainda mais o modelo vencedor para que suas probabilidades estimadas correspondessem aos desfechos reais o mais fielmente possível.

Figure 2
Figura 2.

Transformando previsões em mapas úteis

Uma vez escolhido o modelo de melhor desempenho (CatBoost), ele foi usado para prever as classificações de condição das milhões de casas com informação faltante. Cada categoria de moradia foi traduzida em uma pontuação numérica de um (pior) a seis (melhor). Para proteger a privacidade e tornar os padrões mais fáceis de visualizar, os pesquisadores então fizeram a média dessas pontuações em três tipos de áreas: census tracts, áreas de tabulação de CEP (ZIP code tabulation areas) e uma grade regular de hexágonos de cerca de 36 quilômetros quadrados que cobre todo o país. O resultado é um conjunto de mapas nacionais que revelam extensas paisagens de qualidade habitacional, ao mesmo tempo em que permanecem detalhados o suficiente para orientar análises locais. A equipe também verificou o desempenho do modelo usando múltiplos testes estatísticos, encontrando concordância moderada, mas significativa, dado o tamanho e a complexidade da tarefa.

O que impulsiona moradias melhores ou piores

Ao examinar quais entradas foram mais importantes para o modelo, o estudo oferece pistas sobre o que determina a condição habitacional. Características a nível de propriedade foram predominantes: valor estimado do imposto, revestimento exterior, tipo de telhado, sistema de aquecimento e a idade e histórico de reformas da residência foram especialmente influentes. Fatores de vizinhança, como taxas de pobreza, densidade populacional e proporção de casas móveis tiveram um papel menor, mas ainda relevante. Essas descobertas se alinham com pesquisas mais amplas que mostram que domicílios de renda mais baixa, inquilinos e comunidades de cor têm maior probabilidade de viver em habitações inadequadas, em parte moldadas por práticas de crédito desiguais e aplicação desigual de proteções habitacionais.

Uma nova ferramenta para habitação mais segura e mais justa

Em termos simples, este trabalho usa padrões em registros existentes para preencher as peças faltantes de um quebra-cabeça nacional sobre a qualidade da habitação. Os mapas e conjuntos de dados resultantes, disponibilizados publicamente, oferecem a planejadores, agências de saúde e grupos comunitários uma nova e poderosa forma de identificar onde as moradias podem estar colocando moradores em risco e onde investimentos podem gerar os maiores benefícios. Embora nenhum modelo seja perfeito, especialmente ao trabalhar com dados subjacentes desiguais, essa abordagem em larga escala representa um avanço importante para compreender — e, em última instância, melhorar — os ambientes cotidianos que as pessoas chamam de lar.

Citação: Kim, K., Holmes, T., Powell, E. et al. Large-scale modeling for housing condition prediction using machine learning algorithms. Sci Data 13, 647 (2026). https://doi.org/10.1038/s41597-026-07012-w

Palavras-chave: qualidade da habitação, aprendizado de máquina, dados espaciais, saúde pública, planejamento urbano