Clear Sky Science · es

Modelos de lenguaje multimodales, imágenes de vista callejera e inteligencia para políticas urbanas: recuperando los efectos sobre la sostenibilidad del redlining

· Volver al índice

Por qué las calles de la ciudad y los mapas antiguos siguen importando hoy

Muchas ciudades intentan reducir la pobreza y proteger a las personas del calor, pero con frecuencia carecen de información actualizada, bloque por bloque, sobre dónde se necesita más ayuda. Este estudio muestra cómo la inteligencia artificial moderna puede leer fotos callejeras ordinarias para revelar dónde aún se concentran bajos ingresos y poca cobertura arbórea, especialmente en barrios marcados históricamente por la práctica del redlining en Phoenix, Arizona.

Figure 1. La IA analiza fotos callejeras urbanas para mapear dónde la pobreza y la baja cobertura arbórea aún se solapan en barrios de Phoenix moldeados por el redlining.
Figure 1. La IA analiza fotos callejeras urbanas para mapear dónde la pobreza y la baja cobertura arbórea aún se solapan en barrios de Phoenix moldeados por el redlining.

Las antiguas calificaciones de vivienda y las calles desiguales de hoy

En la década de 1930, los mapas federales de vivienda etiquetaron algunos barrios como “peligrosos” para préstamos hipotecarios, un proceso conocido como redlining. Estos lugares, a menudo con más residentes de color y viviendas más antiguas, recibieron menos inversiones públicas y privadas durante décadas. En Phoenix, la ciudad grande más calurosa de Estados Unidos, esa historia sigue importando porque las zonas con menos recursos y menos árboles enfrentan calor más peligroso y peores condiciones de vida. Los autores se centran en dos pilares simples de la salud vecinal: cuántos residentes viven en la pobreza y cuánto dosel arbóreo proporciona sombra.

Convertir fotos de la calle en boletines vecinales

Los investigadores recopilaron casi veinte mil imágenes de Google Street View en más de mil pequeños vecindarios. Luego construyeron dos tipos de herramientas para “leer” esas imágenes. Una herramienta usa un modelo de lenguaje multimodal, GPT-4o, que observa toda la escena y razona en lenguaje natural sobre pistas como la calidad de la vivienda, el mantenimiento visible y la vegetación antes de convertir ese razonamiento en puntuaciones numéricas para pobreza y cobertura arbórea. La otra herramienta es un modelo estándar de visión por computador que clasifica píxeles individuales en categorías como carretera, edificio o árbol y luego cuenta cuánto de cada uno está presente. Para cada vecindario, el equipo promedió los resultados de muchas imágenes y comparó estas medidas basadas en IA con datos oficiales del Censo de EE. UU. sobre pobreza y con los datos de cobertura arbórea de Google Environmental Insights Explorer.

Verificar la IA frente a las cifras oficiales y el legado del redlining

El equipo probó entonces si las estimaciones de la IA contaban la misma historia que las estadísticas oficiales sobre los efectos persistentes del redlining. Usando varios tipos de modelos estadísticos que tienen en cuenta rasgos locales, diferencias en los servicios de la ciudad y efectos entre vecindarios cercanos, compararon las zonas históricamente redlined con dos grupos de referencia: áreas “ideales” con altos ingresos y áreas “estables o en declive” que no fueron marcadas como peligrosas. En casi todas las versiones del modelo, ambos enfoques de IA reprodujeron un patrón conocido: los vecindarios redlined todavía presentan mayor pobreza y menor cobertura arbórea que las áreas de comparación. De forma crucial, las estimaciones de GPT-4o sobre estas brechas fueron casi idénticas a los datos oficiales, mientras que el modelo de conteo de píxeles tendió a subestimar hasta qué punto la pobreza está ligada al redlining.

Por qué comprender la calle de forma holística funciona mejor

Para entender por qué, los autores examinaron qué tan bien cada método explicaba la variación en las cifras oficiales de pobreza y dosel. GPT-4o por sí solo capturó aproximadamente tanto del patrón de pobreza como un conjunto amplio de estadísticas demográficas y educativas, y mucho más que el modelo de segmentación. Su ventaja fue especialmente fuerte en los vecindarios más desfavorecidos o con más árboles, donde las preguntas de política suelen ser más urgentes. Esto sugiere que la pobreza deja una huella no solo en objetos aislados, como el número de árboles, sino también en señales más amplias como el mantenimiento, la forma de los edificios y el abandono de infraestructuras. La capacidad de GPT-4o para considerar toda la escena le permite detectar esas señales sutiles que los simples recuentos de píxeles pueden pasar por alto, al tiempo que sigue rindiendo bien para la cobertura arbórea, donde contar el dosel es lo que más importa.

Figure 2. Vista comparativa de dos métodos de IA que convierten fotos de la calle en mapas de color que revelan diferencias en pobreza y cobertura arbórea.
Figure 2. Vista comparativa de dos métodos de IA que convierten fotos de la calle en mapas de color que revelan diferencias en pobreza y cobertura arbórea.

Nuevas herramientas para ciudades más justas y verdes

El estudio concluye que indicaciones cuidadosamente diseñadas para un modelo de lenguaje multimodal pueden convertir imágenes callejeras comunes en indicadores oportunos, a escala de vecindario, de pobreza y sombra arbórea que concuerdan estrechamente con fuentes de confianza. Dado que este enfoque no requiere entrenar un nuevo modelo para cada ciudad y puede ser ejecutado por no especialistas con las comprobaciones adecuadas, ofrece una vía práctica para que planificadores, agencias y grupos comunitarios mapeen dónde se alinean las brechas sociales y ambientales, sigan si los programas locales funcionan y redirijan recursos según cambien las necesidades, todo manteniendo a los humanos en el circuito para supervisión.

Cita: Howell, A., Wu, N., Bagchi-Sen, S. et al. Multimodal large language models, street view images and urban policy-intelligence: recovering the sustainability effects of redlining. npj Urban Sustain 6, 79 (2026). https://doi.org/10.1038/s42949-026-00380-7

Palabras clave: sostenibilidad urbana, redlining, imágenes de vista callejera, IA multimodal, cobertura arbórea