Clear Sky Science · pl
Wielomodalne duże modele językowe, zdjęcia z widoku ulicy i inteligencja polityki miejskiej: odtwarzanie efektów zrównoważonego rozwoju wynikających z redliningu
Dlaczego ulice miast i stare mapy wciąż mają znaczenie
Wiele miast stara się ograniczyć ubóstwo i chronić mieszkańców przed upałem, ale często brakuje im aktualnych informacji blok po bloku o tym, gdzie pomoc jest najbardziej potrzebna. Badanie pokazuje, jak nowoczesna sztuczna inteligencja może odczytywać zwykłe zdjęcia uliczne, aby ujawnić, gdzie niskie dochody i niska pokrywa drzewna nadal się kumulują — zwłaszcza w sąsiedztwach ukształtowanych przez historyczną praktykę redliningu w Phoenix w Arizonie.

Stare oceny mieszkaniowe i dzisiejsze nierówne ulice
W latach 30. XX wieku federalne mapy mieszkaniowe oznaczały niektóre sąsiedztwa jako „niebezpieczne” dla udzielania kredytów hipotecznych — proces znany jako redlining. Miejsca te, często zamieszkałe przez większy odsetek osób będących mniejszościami i z starszymi zabudowaniami, przez dziesięciolecia otrzymywały mniej inwestycji publicznych i prywatnych. W Phoenix, najgorętszym dużym mieście w Stanach Zjednoczonych, ta przeszłość wciąż ma znaczenie, ponieważ obszary z mniejszymi środkami i mniejszą liczbą drzew są bardziej narażone na niebezpieczne upały i gorsze warunki życia. Autorzy koncentrują się na dwóch prostych filarach zdrowia sąsiedztwa: ile osób żyje w ubóstwie oraz ile cienia zapewnia pokrywa drzewna.
Przekształcanie zdjęć ulicznych w lokalne świadectwa
Naukowcy zebrali prawie dwadzieścia tysięcy zdjęć z Google Street View obejmujących ponad tysiąc małych sąsiedztw. Następnie zbudowali dwa rodzaje narzędzi do „czytania” tych obrazów. Jedno narzędzie wykorzystuje wielomodalny duży model językowy, GPT-4o, który analizuje całą scenę i w prostych słowach interpretuje wskazówki takie jak jakość zabudowy, widoczny stan utrzymania czy zieleń, a potem przekształca te obserwacje w wartości numeryczne dla ubóstwa i pokrywy drzewnej. Drugie narzędzie to standardowy model widzenia komputerowego, który klasyfikuje poszczególne piksele do kategorii takich jak droga, budynek czy drzewo, a następnie zlicza, ile którego elementu występuje. Dla każdego sąsiedztwa zespół uśrednił wyniki z wielu zdjęć i porównał te miary oparte na AI z oficjalnymi danymi z amerykańskiego spisu ludności dotyczącymi ubóstwa oraz z danymi Google Environmental Insights Explorer o pokrywie drzewnej.
Porównanie AI z oficjalnymi danymi i spuścizną redliningu
Następnie zespół sprawdził, czy oszacowania AI opowiadają tę samą historię co oficjalne statystyki dotyczące utrzymujących się skutków redliningu. Korzystając z kilku rodzajów modeli statystycznych, które uwzględniają cechy lokalne, różnice w usługach miejskich i oddziaływania między sąsiedztwami, porównali historycznie czerwone linie z dwiema grupami referencyjnymi: obszarami „idealnymi” o wysokich dochodach oraz obszarami „stabilnymi lub podupadającymi”, które nie były oznaczone jako niebezpieczne. We niemal wszystkich wersjach modelu obie metody AI odtworzyły znany wzorzec: dzielnice objęte redliningiem dalej mają wyższe ubóstwo i mniejszą pokrywę drzewną niż obszary porównawcze. Co istotne, estymacje różnic wykonane przez GPT-4o były niemal identyczne z oficjalnymi danymi, podczas gdy model oparty na zliczaniu pikseli miał tendencję do niedoszacowywania związku między ubóstwem a redliningiem.
Dlaczego holistyczne rozumienie sceny działa lepiej
Aby to zrozumieć, autorzy przeanalizowali, jak dobrze każda metoda wyjaśniała zmienność w oficjalnych liczbach dotyczących ubóstwa i pokrywy drzewnej. Sam GPT-4o wychwycił mniej więcej tyle samo wzorca ubóstwa, co bogaty zestaw statystyk demograficznych i edukacyjnych, i znacznie więcej niż model segmentacyjny. Jego przewaga była szczególnie duża w najbardziej upośledzonych lub najbardziej zadrzewionych sąsiedztwach, gdzie pytania polityczne są często najbardziej pilne. To sugeruje, że ubóstwo zostawia ślad nie tylko w pojedynczych obiektach, takich jak liczba drzew, ale także w szerszych wskazówkach, takich jak stan utrzymania, forma zabudowy czy zaniedbanie infrastruktury. Zdolność GPT-4o do rozważenia całej sceny pozwala mu wychwycić subtelne sygnały, które proste zliczanie pikseli może przegapić, przy jednoczesnym dobrym działaniu w kwestii pokrywy drzewnej, gdzie liczenie koron jest kluczowe.

Nowe narzędzia dla sprawiedliwszych, bardziej zielonych miast
Badanie konkluduje, że starannie zaprojektowane polecenia dla wielomodalnego dużego modelu językowego mogą przekształcić powszechne zdjęcia uliczne w aktualne, na poziomie sąsiedztwa wskaźniki ubóstwa i cienia drzew, które ściśle zgadzają się z zaufanymi źródłami. Ponieważ podejście to nie wymaga trenowania nowego modelu dla każdego miasta i może być uruchamiane przez osoby niebędące specjalistami przy odpowiednich kontrolach, oferuje praktyczny sposób dla planistów, agencji i grup społecznych na mapowanie miejsc, gdzie luki społeczne i środowiskowe się pokrywają, śledzenie, czy lokalne programy działają, i ponowne ukierunkowywanie zasobów w miarę zmieniających się potrzeb, zachowując jednocześnie nadzór człowieka.
Cytowanie: Howell, A., Wu, N., Bagchi-Sen, S. et al. Multimodal large language models, street view images and urban policy-intelligence: recovering the sustainability effects of redlining. npj Urban Sustain 6, 79 (2026). https://doi.org/10.1038/s42949-026-00380-7
Słowa kluczowe: zrównoważenie miejskie, redlining, obrazy z widoku ulicy, wielomodalna AI, pokrywa drzewna