Clear Sky Science · de
Multimodale große Sprachmodelle, Street-View-Bilder und städtische Politikintelligenz: Wiederherstellung der Nachhaltigkeitseffekte von Redlining
Warum Straßen und alte Karten in der Stadt heute noch bedeutsam sind
Viele Städte bemühen sich, Armut zu verringern und Menschen vor Hitze zu schützen, verfügen jedoch häufig nicht über aktuelle Informationen auf Blockebene, die zeigen, wo Hilfe am dringendsten benötigt wird. Diese Studie zeigt, wie moderne künstliche Intelligenz gewöhnliche Straßenfotos lesen kann, um offenzulegen, wo sich weiterhin niedrige Einkommen und geringer Baumbestand häufen — insbesondere in Vierteln, die durch die historische Praxis des Redlining in Phoenix, Arizona, geprägt wurden.

Alte Wohnungsbewertungen und die heutigen ungleichen Straßen
In den 1930er-Jahren kennzeichneten staatliche Wohnungsatlanten einige Viertel als „gefährlich“ für Hypothekendarlehen — ein Prozess, der als Redlining bekannt wurde. Diese Orte, oft mit einem höheren Anteil an Bewohnern mit anderer Hautfarbe und älterem Wohnungsbestand, erhielten über Jahrzehnte hinweg weniger öffentliche und private Investitionen. In Phoenix, der heißesten Großstadt der USA, wirkt sich diese Geschichte weiterhin aus, weil Gebiete mit weniger Geld und weniger Bäumen stärkere Hitzeexposition und schlechtere Lebensbedingungen erfahren. Die Autorinnen und Autoren konzentrieren sich auf zwei einfache Säulen der Nachbarschaftsgesundheit: wie viele Einwohner in Armut leben und wie viel Baumkronendach Schatten spendet.
Straßenfotos in Nachbarschaftszeugnisse verwandeln
Die Forschenden sammelten fast zwanzigtausend Google-Street-View-Bilder aus mehr als tausend kleinen Nachbarschaften. Anschließend entwickelten sie zwei Arten von Werkzeugen, um diese Bilder zu „lesen“. Ein Werkzeug nutzt ein multimodales großes Sprachmodell, GPT-4o, das eine gesamte Szene betrachtet und in verständlicher Sprache über Hinweise wie Wohnqualität, sichtbaren Unterhalt und Begrünung nachdenkt, bevor es diese Überlegungen in numerische Werte für Armut und Baumabdeckung übersetzt. Das andere Werkzeug ist ein klassisches Computer-Vision-Modell, das einzelne Pixel in Kategorien wie Straße, Gebäude oder Baum einordnet und dann zählt, wie viel von jeder Kategorie vorhanden ist. Für jede Nachbarschaft mittelte das Team die Ergebnisse vieler Bilder und verglich diese KI-basierten Messwerte mit offiziellen Daten des US Census zur Armut und mit Googles Environmental Insights Explorer zur Baumkronenabdeckung.
KI gegen offizielle Zahlen und das Erbe des Redlining prüfen
Das Team prüfte anschließend, ob die KI-Schätzungen dieselbe Geschichte erzählten wie die offiziellen Statistiken über die andauernden Effekte des Redlining. Mithilfe mehrerer statistischer Modelle, die lokale Merkmale, Unterschiede bei städtischen Diensten und Überlagerungseffekte zwischen benachbarten Quartieren berücksichtigen, verglichen sie historisch redlinete Gebiete mit zwei Referenzgruppen: „idealen“ Gebieten mit hohem Einkommen und „stabilen oder abnehmenden“ Gebieten, die nicht als gefährlich markiert waren. In fast allen Modellausprägungen reproduzierten beide KI-Ansätze ein vertrautes Muster: Redlinete Viertel weisen weiterhin höhere Armut und geringere Baumkronenabdeckung auf als Vergleichsgebiete. Entscheidend war, dass die Schätzungen von GPT-4o zu diesen Unterschieden den offiziellen Daten nahezu entsprachen, während das Pixelzählmodell dazu neigte, den Zusammenhang zwischen Armut und Redlining zu unterschätzen.
Warum ein ganzheitliches Straßenverständnis besser funktioniert
Um dies zu erklären, untersuchten die Autorinnen und Autoren, wie gut jede Methode die Variation der offiziellen Armuts- und Baumkronenzahlen erklärte. GPT-4o allein erfasste etwa so viel des Armutsbilds wie ein umfangreiches Set demografischer und bildungsbezogener Statistiken und deutlich mehr als das Segmentierungsmodell. Sein Vorteil war besonders stark in den am stärksten benachteiligten oder am dichtesten bewaldeten Nachbarschaften, wo politische Fragen oft am dringlichsten sind. Das deutet darauf hin, dass Armut sich nicht nur in isolierten Objekten wie der Anzahl der Bäume niederschlägt, sondern auch in breiteren Hinweisen wie Instandhaltung, Gebäudestruktur und Vernachlässigung von Infrastruktur. Die Fähigkeit von GPT-4o, die gesamte Szenerie zu berücksichtigen, erlaubt es, diese subtilen Signale aufzufangen, die einfache Pixelzählungen übersehen können, während es gleichzeitig bei der Baumabdeckung, wo das Zählen der Kronen besonders wichtig ist, gut abschneidet.

Neue Werkzeuge für gerechtere, grünere Städte
Die Studie kommt zu dem Schluss, dass sorgfältig gestaltete Prompts für ein multimodales großes Sprachmodell gewöhnliche Straßenbilder in zeitnahe, nachbarschaftsbezogene Indikatoren für Armut und Baumschatten verwandeln können, die eng mit vertrauenswürdigen Quellen übereinstimmen. Da dieser Ansatz nicht erfordert, für jede Stadt ein neues Modell zu trainieren, und von Nicht-Spezialisten mit angemessenen Prüfungen ausgeführt werden kann, bietet er Planerinnen und Planern, Behörden und Gemeindegruppen eine praktikable Möglichkeit, dort zu kartieren, wo soziale und ökologische Lücken zusammenfallen, zu verfolgen, ob lokale Programme wirken, und Ressourcen nach Bedarf umzulenken — wobei Menschen für die Aufsicht eingebunden bleiben.
Zitation: Howell, A., Wu, N., Bagchi-Sen, S. et al. Multimodal large language models, street view images and urban policy-intelligence: recovering the sustainability effects of redlining. npj Urban Sustain 6, 79 (2026). https://doi.org/10.1038/s42949-026-00380-7
Schlüsselwörter: städtische Nachhaltigkeit, Redlining, Street-View-Bilddaten, multimodale KI, Baumkronendach