Clear Sky Science · it

I modelli linguistici multimodali di grande scala, le immagini Street View e l’intelligence per le politiche urbane: ricostruire gli effetti sulla sostenibilità del redlining

2026-03-30 · Torna all'indice

Perché le strade cittadine e le vecchie mappe contano ancora oggi

Molte città cercano di ridurre la povertà e di proteggere le persone dal caldo, ma spesso non dispongono di informazioni aggiornate, blocco per blocco, su dove sia più necessario intervenire. Questo studio mostra come l’intelligenza artificiale moderna possa leggere semplici foto di strada per rivelare dove redditi bassi e scarsa copertura arborea continuano a concentrarsi, in particolare nei quartieri di Phoenix, Arizona, segnati dalla pratica storica del redlining.

Figure 1. L’IA legge le foto delle strade cittadine per mappare dove povertà e scarsa copertura arborea si sovrappongono ancora nei quartieri di Phoenix modellati dal redlining.

Vecchie classificazioni abitative e le disuguaglianze odierne

Negli anni Trenta, le mappe abitative federali etichettarono alcuni quartieri come “pericolosi” per i mutui, un processo noto come redlining. Questi luoghi, spesso con una maggiore presenza di residenti di colore e abitazioni più datate, ricevettero per decenni meno investimenti pubblici e privati. A Phoenix, la grande città più calda degli Stati Uniti, quella storia è ancora rilevante perché le aree con meno risorse e meno alberi affrontano ondate di calore più pericolose e condizioni di vita peggiori. Gli autori si concentrano su due pilastri semplici della salute del quartiere: quanti residenti vivono in povertà e quanta ombra offre la copertura arborea.

Trasformare le foto di strada in schede di quartiere

I ricercatori hanno raccolto quasi ventimila immagini Google Street View in oltre mille piccoli quartieri. Hanno quindi costruito due tipi di strumenti per “leggere” queste immagini. Uno strumento usa un modello linguistico multimodale di grande scala, GPT-4o, che osserva un’intera scena e ragiona in linguaggio naturale su indizi come la qualità delle abitazioni, la manutenzione visibile e la presenza di vegetazione, prima di convertire quel ragionamento in punteggi numerici per povertà e copertura arborea. L’altro strumento è un modello di visione artificiale standard che classifica i singoli pixel in categorie come strada, edificio o albero e poi conta quanto di ciascuno è presente. Per ogni quartiere, il team ha mediato i risultati di molte immagini e ha confrontato queste misure basate sull’IA con i dati ufficiali del censimento USA sulla povertà e con quelli di Google Environmental Insights Explorer sulla copertura arborea.

Confrontare l’IA con i numeri ufficiali e l’eredità del redlining

Il team ha poi testato se le stime dell’IA raccontavano la stessa storia delle statistiche ufficiali sugli effetti duraturi del redlining. Utilizzando diversi tipi di modelli statistici che tengono conto delle caratteristiche locali, delle differenze nei servizi cittadini e delle ricadute tra quartieri vicini, hanno confrontato le aree storicamente redlined con due gruppi di riferimento: aree “ideali” con redditi elevati e aree “stabili o in declino” non classificate come pericolose. In quasi tutte le versioni del modello, entrambi gli approcci di IA hanno riprodotto un quadro noto: i quartieri redlined mostrano ancora maggiore povertà e minore copertura arborea rispetto alle aree di confronto. Fondamentale, le stime di GPT-4o di questi divari erano quasi identiche ai dati ufficiali, mentre il modello che conta i pixel tendeva a sottostimare quanto la povertà sia legata al redlining.

Perché una comprensione olistica delle strade funziona meglio

Per capire il motivo, gli autori hanno esaminato quanto bene ogni metodo spiegava la variazione nei numeri ufficiali di povertà e copertura arborea. GPT-4o da solo catturava circa la stessa quota del pattern di povertà di un ricco insieme di statistiche demografiche e sull’istruzione, e molto più del modello di segmentazione. Il suo vantaggio era particolarmente marcato nei quartieri più svantaggiati o con più alberi, dove le questioni di politica pubblica sono spesso più urgenti. Questo suggerisce che la povertà lascia tracce non solo in oggetti isolati, come il numero di alberi, ma anche in indizi più ampi come la manutenzione, la forma degli edifici e il degrado delle infrastrutture. La capacità di GPT-4o di considerare l’intera scena gli permette di cogliere segnali sottili che i semplici conteggi di pixel possono perdere, pur mantenendo buone prestazioni per la copertura arborea, dove il conteggio della chioma è particolarmente rilevante.

Figure 2. Vista affiancata di due metodi di IA che trasformano le foto di strada in mappe a colori che rivelano le differenze nella povertà e nella copertura arborea.

Nuovi strumenti per città più giuste e più verdi

Lo studio conclude che prompt progettati con cura per un modello linguistico multimodale di grande scala possono trasformare immagini stradali comuni in indicatori tempestivi, a livello di quartiere, di povertà e ombra arborea che concordano strettamente con fonti affidabili. Poiché questo approccio non richiede di addestrare un nuovo modello per ogni città e può essere eseguito da non specialisti con opportune verifiche, offre un modo pratico per pianificatori, agenzie e gruppi comunitari di mappare dove si sovrappongono gap sociali e ambientali, monitorare se i programmi locali funzionano e riallocare risorse man mano che i bisogni cambiano, mantenendo gli esseri umani nel circuito per la supervisione.

Citazione: Howell, A., Wu, N., Bagchi-Sen, S. et al. Multimodal large language models, street view images and urban policy-intelligence: recovering the sustainability effects of redlining. npj Urban Sustain 6, 79 (2026). https://doi.org/10.1038/s42949-026-00380-7

Parole chiave: sostenibilità urbana, redlining, immagini Street View, IA multimodale, copertura arborea