Clear Sky Science · pt

Modelos de linguagem grande multimodais, imagens de street view e inteligência para políticas urbanas: recuperando os efeitos de sustentabilidade do redlining

2026-03-30 · Voltar ao índice

Por que ruas da cidade e mapas antigos ainda importam hoje

Muitas cidades tentam reduzir a pobreza e proteger as pessoas do calor, mas frequentemente carecem de informações atualizadas, quarteirão a quarteirão, sobre onde a ajuda é mais necessária. Este estudo mostra como a inteligência artificial moderna pode ler fotos comuns de rua para revelar onde renda baixa e pouca cobertura arbórea ainda se concentram juntas, especialmente em bairros moldados pela prática histórica do redlining em Phoenix, Arizona.

Figure 1. A IA lê fotos de ruas da cidade para mapear onde pobreza e baixa cobertura de árvores ainda se sobrepõem em bairros de Phoenix moldados pelo redlining.

Notas habitacionais antigas e as ruas desiguais de hoje

Na década de 1930, mapas habitacionais federais rotularam alguns bairros como “perigosos” para concessão de empréstimos, um processo conhecido como redlining. Esses locais, frequentemente com mais residentes de cor e moradias mais antigas, receberam menos investimentos públicos e privados por décadas. Em Phoenix, a maior cidade mais quente dos Estados Unidos, essa história ainda importa porque áreas com menos recursos e menos árvores enfrentam calor mais perigoso e condições de vida piores. Os autores se concentram em dois pilares simples da saúde do bairro: quantos residentes vivem na pobreza e quanta cobertura arbórea oferece sombra.

Transformando fotos de rua em boletins de bairro

Os pesquisadores coletaram quase vinte mil imagens do Google Street View em mais de mil pequenos bairros. Em seguida, construíram dois tipos de ferramentas para “ler” essas imagens. Uma ferramenta usa um modelo de linguagem grande multimodal, o GPT-4o, que observa toda a cena e raciocina em linguagem natural sobre pistas como qualidade da habitação, manutenção visível e vegetação antes de converter esse raciocínio em pontuações numéricas para pobreza e cobertura arbórea. A outra ferramenta é um modelo padrão de visão computacional que classifica pixels individuais em categorias como rua, edifício ou árvore e então conta quanto de cada um está presente. Para cada bairro, a equipe promediou resultados de muitas imagens e comparou essas medidas baseadas em IA com dados oficiais do Censo dos EUA sobre pobreza e com o Environmental Insights Explorer do Google sobre cobertura arbórea.

Verificando a IA com números oficiais e o legado do redlining

A equipe então testou se as estimativas da IA contavam a mesma história que as estatísticas oficiais sobre os efeitos persistentes do redlining. Usando vários tipos de modelos estatísticos que levam em conta características locais, diferenças nos serviços municipais e efeitos entre bairros próximos, eles compararam áreas historicamente sujeitas ao redlining com dois grupos de referência: áreas “ideais” com rendas altas e áreas “estáveis ou em declínio” que não foram marcadas como perigosas. Em quase todas as versões dos modelos, ambas as abordagens de IA reproduziram um padrão conhecido: bairros redlined ainda apresentam maior pobreza e menor cobertura arbórea que as áreas de comparação. De forma crucial, as estimativas do GPT-4o desses hiatos foram quase idênticas aos dados oficiais, enquanto o modelo de contagem de pixels tendia a subestimar o quanto a pobreza está ligada ao redlining.

Por que uma compreensão holística da rua funciona melhor

Para entender por quê, os autores examinaram quão bem cada método explicou a variação nos números oficiais de pobreza e cobertura arbórea. O GPT-4o sozinho capturou cerca de tanto do padrão de pobreza quanto um conjunto rico de estatísticas demográficas e educacionais, e muito mais do que o modelo de segmentação. Sua vantagem foi especialmente forte nos bairros mais desfavorecidos ou com mais árvores, onde questões de política costumam ser mais urgentes. Isso sugere que a pobreza deixa marcas não apenas em objetos isolados, como o número de árvores, mas também em pistas mais amplas como manutenção, forma dos edifícios e negligência da infraestrutura. A capacidade do GPT-4o de considerar a cena inteira permite que ele capte esses sinais sutis que simples contagens de pixels podem perder, mantendo bom desempenho na cobertura arbórea, onde contar a copa é o mais importante.

Figure 2. Visão lado a lado de dois métodos de IA que transformam fotos de rua em mapas coloridos que revelam diferenças em pobreza e cobertura arbórea.

Novas ferramentas para cidades mais justas e verdes

O estudo conclui que prompts bem elaborados para um modelo de linguagem grande multimodal podem transformar imagens comuns de rua em indicadores oportunos, em escala de bairro, de pobreza e sombra de árvores que concordam de perto com fontes confiáveis. Como essa abordagem não exige treinar um novo modelo para cada cidade e pode ser executada por não especialistas com verificações adequadas, ela oferece uma forma prática para planejadores, agências e grupos comunitários mapearem onde lacunas sociais e ambientais se alinham, acompanharem se programas locais estão funcionando e redirecionarem recursos conforme as necessidades mudam, mantendo sempre humanos no loop para supervisão.

Citação: Howell, A., Wu, N., Bagchi-Sen, S. et al. Multimodal large language models, street view images and urban policy-intelligence: recovering the sustainability effects of redlining. npj Urban Sustain 6, 79 (2026). https://doi.org/10.1038/s42949-026-00380-7

Palavras-chave: sustentabilidade urbana, redlining, imagens de street view, IA multimodal, cobertura arbórea