Clear Sky Science · sv

Multimodala stora språkmodeller, street view-bilder och urban policy-intelligens: återvinna de hållbarhetseffekter som följer av redlining

2026-03-30 · Tillbaka till index

Varför stadsgator och gamla kartor fortfarande spelar roll i dag

Många städer försöker minska fattigdom och skydda människor från värme, men saknar ofta uppdaterad, block-för-block-information om var hjälp behövs mest. Denna studie visar hur modern artificiell intelligens kan läsa vanliga gatufoton för att avslöja var låg inkomst och låg trädtäthet fortfarande klustrar ihop sig, särskilt i grannskap formade av den historiska praktiken redlining i Phoenix, Arizona.

Figure 1. AI läser stadsfotografier för att kartlägga var fattigdom och låg trädtäthet fortfarande överlappar i Phoenix-grannskap formade av redlining.

Gamla bostadsbetyg och dagens ojämlika gator

På 1930-talet märkte federala bostadskartor ut vissa kvarter som ”farliga” för bostadslån, en process känd som redlining. Dessa områden, ofta med fler invånare av färg och äldre bostäder, fick under årtionden mindre offentliga och privata investeringar. I Phoenix, USA:s varmaste stora stad, spelar den historien fortfarande roll eftersom områden med mindre pengar och färre träd utsätts för farligare värme och sämre levnadsvillkor. Författarna fokuserar på två enkla pelare för grannskapshälso: hur många invånare som lever i fattigdom och hur mycket trädkrontäcke som ger skugga.

Att förvandla gatufoton till grannskapsbetyg

Forskarlaget samlade in nästan tjugo tusen Google Street View-bilder över mer än tusen små grannskap. De byggde sedan två typer av verktyg för att ”läsa” dessa bilder. Ett verktyg använder en multimodal stor språkmodell, GPT-4o, som betraktar en hel scen och resonerar i klartext om ledtrådar som bostadskvalitet, synligt underhåll och grönska innan den omvandlar det resonemanget till numeriska poäng för fattigdom och trädtäcke. Det andra verktyget är en standard datorseendemodell som klassificerar individuella pixlar i kategorier som väg, byggnad eller träd och sedan räknar hur mycket av varje som finns. För varje grannskap medelvärdesbildade teamet resultaten från många bilder och jämförde dessa AI-baserade mått med officiella data från US Census om fattigdom och från Googles Environmental Insights Explorer om trädkrontäcke.

Att kontrollera AI mot officiella siffror och redlinings arv

Teamet testade sedan om AI-uppskattningarna berättade samma historia som de officiella statistikerna om redlinings kvarvarande effekter. Genom att använda flera statistiska modeller som tar hänsyn till lokala egenskaper, skillnader i kommunala tjänster och spillover-effekter mellan närliggande grannskap, jämförde de historiskt redlinade områden med två referensgrupper: ”ideala” områden med höga inkomster och ”stabila eller nedåtgående” områden som inte markerats som farliga. I nästan alla modellvarianter återspeglade båda AI-approacherna ett välbekant mönster: redlinade grannskap har fortfarande högre fattigdom och lägre trädtäcke än jämförelseområden. Avgörande var att GPT-4o:s uppskattningar av dessa klyftor var nära identiska med de officiella uppgifterna, medan pixelräkningsmodellen tenderade att underskatta hur starkt fattigdom är kopplat till redlining.

Varför helhetsförståelse av gatan fungerar bättre

För att förstå varför undersökte författarna hur väl varje metod förklarade variationen i de officiella fattigdoms- och trädkrontalet. GPT-4o ensam fångade ungefär lika mycket av fattigdomsmönstret som en rik uppsättning demografiska och utbildningsstatistik, och betydligt mer än segmenteringsmodellen. Dess fördel var särskilt stark i de mest missgynnade eller mest trädrika grannskapen, där policyfrågorna ofta är mest akuta. Detta tyder på att fattigdom lämnar spår inte bara i isolerade objekt, som antalet träd, utan också i bredare signaler såsom underhåll, byggnadsform och infrastructurell försummelse. GPT-4o:s förmåga att betrakta hela scenen gör att den kan plocka upp dessa subtila tecken som enkla pixelräkningar kan missa, samtidigt som den fortfarande fungerar väl för trädtäcke där räkning av krona är viktigast.

Figure 2. Sida-vid-sida-visning av två AI-metoder som omvandlar gatufoton till färgkartor som avslöjar skillnader i fattigdom och trädtäcke.

Nya verktyg för rättvisare, grönare städer

Studien avslutar att noggrant utformade prompts för en multimodal stor språkmodell kan omvandla vanliga gatubilder till aktuella, grannskapsnivåindikatorer för fattigdom och trädskugga som stämmer väl överens med betrodda källor. Eftersom detta tillvägagångssätt inte kräver att man tränar en ny modell för varje stad och kan köras av icke-specialister med lämpliga kontroller, erbjuder det ett praktiskt sätt för planerare, myndigheter och samhällsgrupper att kartlägga var sociala och miljömässiga klyftor sammanfaller, följa om lokala program fungerar och omfördela resurser när behoven förändras — samtidigt som människor hålls med i loopen för övervakning.

Citering: Howell, A., Wu, N., Bagchi-Sen, S. et al. Multimodal large language models, street view images and urban policy-intelligence: recovering the sustainability effects of redlining. npj Urban Sustain 6, 79 (2026). https://doi.org/10.1038/s42949-026-00380-7

Nyckelord: urban hållbarhet, redlining, street view-bilder, multimodal AI, trädkrontäcke