Clear Sky Science · pl

Wielomodalne duże modele językowe, zdjęcia z widoku ulicy i inteligencja polityki miejskiej: odtwarzanie efektów zrównoważonego rozwoju wynikających z redliningu

2026-03-30 · Powrót do spisu

Dlaczego ulice miast i stare mapy wciąż mają znaczenie

Wiele miast stara się ograniczyć ubóstwo i chronić mieszkańców przed upałem, ale często brakuje im aktualnych informacji blok po bloku o tym, gdzie pomoc jest najbardziej potrzebna. Badanie pokazuje, jak nowoczesna sztuczna inteligencja może odczytywać zwykłe zdjęcia uliczne, aby ujawnić, gdzie niskie dochody i niska pokrywa drzewna nadal się kumulują — zwłaszcza w sąsiedztwach ukształtowanych przez historyczną praktykę redliningu w Phoenix w Arizonie.

Figure 1. Sztuczna inteligencja odczytuje zdjęcia miejskich ulic, aby mapować miejsca, w których ubóstwo i niska pokrywa drzewami nadal nakładają się na siebie w sąsiedztwach Phoenix ukształtowanych przez redlining.

Stare oceny mieszkaniowe i dzisiejsze nierówne ulice

W latach 30. XX wieku federalne mapy mieszkaniowe oznaczały niektóre sąsiedztwa jako „niebezpieczne” dla udzielania kredytów hipotecznych — proces znany jako redlining. Miejsca te, często zamieszkałe przez większy odsetek osób będących mniejszościami i z starszymi zabudowaniami, przez dziesięciolecia otrzymywały mniej inwestycji publicznych i prywatnych. W Phoenix, najgorętszym dużym mieście w Stanach Zjednoczonych, ta przeszłość wciąż ma znaczenie, ponieważ obszary z mniejszymi środkami i mniejszą liczbą drzew są bardziej narażone na niebezpieczne upały i gorsze warunki życia. Autorzy koncentrują się na dwóch prostych filarach zdrowia sąsiedztwa: ile osób żyje w ubóstwie oraz ile cienia zapewnia pokrywa drzewna.

Przekształcanie zdjęć ulicznych w lokalne świadectwa

Naukowcy zebrali prawie dwadzieścia tysięcy zdjęć z Google Street View obejmujących ponad tysiąc małych sąsiedztw. Następnie zbudowali dwa rodzaje narzędzi do „czytania” tych obrazów. Jedno narzędzie wykorzystuje wielomodalny duży model językowy, GPT-4o, który analizuje całą scenę i w prostych słowach interpretuje wskazówki takie jak jakość zabudowy, widoczny stan utrzymania czy zieleń, a potem przekształca te obserwacje w wartości numeryczne dla ubóstwa i pokrywy drzewnej. Drugie narzędzie to standardowy model widzenia komputerowego, który klasyfikuje poszczególne piksele do kategorii takich jak droga, budynek czy drzewo, a następnie zlicza, ile którego elementu występuje. Dla każdego sąsiedztwa zespół uśrednił wyniki z wielu zdjęć i porównał te miary oparte na AI z oficjalnymi danymi z amerykańskiego spisu ludności dotyczącymi ubóstwa oraz z danymi Google Environmental Insights Explorer o pokrywie drzewnej.

Porównanie AI z oficjalnymi danymi i spuścizną redliningu

Następnie zespół sprawdził, czy oszacowania AI opowiadają tę samą historię co oficjalne statystyki dotyczące utrzymujących się skutków redliningu. Korzystając z kilku rodzajów modeli statystycznych, które uwzględniają cechy lokalne, różnice w usługach miejskich i oddziaływania między sąsiedztwami, porównali historycznie czerwone linie z dwiema grupami referencyjnymi: obszarami „idealnymi” o wysokich dochodach oraz obszarami „stabilnymi lub podupadającymi”, które nie były oznaczone jako niebezpieczne. We niemal wszystkich wersjach modelu obie metody AI odtworzyły znany wzorzec: dzielnice objęte redliningiem dalej mają wyższe ubóstwo i mniejszą pokrywę drzewną niż obszary porównawcze. Co istotne, estymacje różnic wykonane przez GPT-4o były niemal identyczne z oficjalnymi danymi, podczas gdy model oparty na zliczaniu pikseli miał tendencję do niedoszacowywania związku między ubóstwem a redliningiem.

Dlaczego holistyczne rozumienie sceny działa lepiej

Aby to zrozumieć, autorzy przeanalizowali, jak dobrze każda metoda wyjaśniała zmienność w oficjalnych liczbach dotyczących ubóstwa i pokrywy drzewnej. Sam GPT-4o wychwycił mniej więcej tyle samo wzorca ubóstwa, co bogaty zestaw statystyk demograficznych i edukacyjnych, i znacznie więcej niż model segmentacyjny. Jego przewaga była szczególnie duża w najbardziej upośledzonych lub najbardziej zadrzewionych sąsiedztwach, gdzie pytania polityczne są często najbardziej pilne. To sugeruje, że ubóstwo zostawia ślad nie tylko w pojedynczych obiektach, takich jak liczba drzew, ale także w szerszych wskazówkach, takich jak stan utrzymania, forma zabudowy czy zaniedbanie infrastruktury. Zdolność GPT-4o do rozważenia całej sceny pozwala mu wychwycić subtelne sygnały, które proste zliczanie pikseli może przegapić, przy jednoczesnym dobrym działaniu w kwestii pokrywy drzewnej, gdzie liczenie koron jest kluczowe.

Figure 2. Widok obok siebie dwóch metod AI przekształcających zdjęcia uliczne w kolorowe mapy, które ujawniają różnice w ubóstwie i pokrywie drzewnej.

Nowe narzędzia dla sprawiedliwszych, bardziej zielonych miast

Badanie konkluduje, że starannie zaprojektowane polecenia dla wielomodalnego dużego modelu językowego mogą przekształcić powszechne zdjęcia uliczne w aktualne, na poziomie sąsiedztwa wskaźniki ubóstwa i cienia drzew, które ściśle zgadzają się z zaufanymi źródłami. Ponieważ podejście to nie wymaga trenowania nowego modelu dla każdego miasta i może być uruchamiane przez osoby niebędące specjalistami przy odpowiednich kontrolach, oferuje praktyczny sposób dla planistów, agencji i grup społecznych na mapowanie miejsc, gdzie luki społeczne i środowiskowe się pokrywają, śledzenie, czy lokalne programy działają, i ponowne ukierunkowywanie zasobów w miarę zmieniających się potrzeb, zachowując jednocześnie nadzór człowieka.

Cytowanie: Howell, A., Wu, N., Bagchi-Sen, S. et al. Multimodal large language models, street view images and urban policy-intelligence: recovering the sustainability effects of redlining. npj Urban Sustain 6, 79 (2026). https://doi.org/10.1038/s42949-026-00380-7

Słowa kluczowe: zrównoważenie miejskie, redlining, obrazy z widoku ulicy, wielomodalna AI, pokrywa drzewna