Clear Sky Science · ru

Мультимодальные большие языковые модели, уличные снимки и городская политика-интеллект: восстановление последствий редлайнинга для устойчивости

2026-03-30 · Назад к списку

Почему городские улицы и старые карты до сих пор важны

Многие города пытаются сократить бедность и защитить людей от жары, но часто им не хватает актуальной поквартальной информации о том, где помощь нужна больше всего. Это исследование показывает, как современный искусственный интеллект может «читать» обычные уличные фотографии, чтобы выявить места, где низкие доходы и дефицит деревьев по‑прежнему сходятся, особенно в районах, на формирование которых повлияла историческая практика редлайнинга в Фениксе, Аризона.

Figure 1. ИИ анализирует городские уличные фото, чтобы снимать карту мест, где бедность и низкое покрытие деревьями по‑прежнему совпадают в районах Феникса, сформированных редлайнингом.

Старые оценки жилья и сегодняшнее неравномерное развитие улиц

В 1930‑е годы федеральные жилищные карты маркировали отдельные районы как «опасные» для выдачи ипотечных кредитов — процесс, известный как редлайнинг. Эти места, часто с большим числом жителей цвета и старым жилищным фондом, десятилетиями получали меньше государственных и частных инвестиций. В Фениксе, самом жарком крупном городе США, эта история по‑прежнему имеет значение: районы с меньшими доходами и меньшим количеством деревьев сталкиваются с более опасной жарой и худшими условиями жизни. Авторы сосредотачиваются на двух простых столпах здоровья района: доле жителей, живущих в бедности, и площади крон деревьев, дающих тень.

Преобразование уличных фото в сводки по районам

Исследователи собрали почти двадцать тысяч изображений Google Street View по более чем тысяче мелких районов. Затем они построили два типа инструментов для «чтения» этих снимков. Один инструмент использует мультимодальную большую языковую модель GPT-4o, которая рассматривает всю сцену и вербально анализирует подсказки — качество жилья, видимый уход за ним и зелень — прежде чем преобразовать это рассуждение в числовые оценки бедности и покрытия деревьями. Другой инструмент — стандартная модель компьютерного зрения, которая классифицирует отдельные пиксели по категориям вроде дороги, здания или дерева и затем подсчитывает долю каждой категории. Для каждого района команда усредняла результаты множества изображений и сравнивала эти показатели, полученные с помощью ИИ, с официальными данными Бюро переписи США по бедности и данными Google Environmental Insights Explorer по кроновой площади деревьев.

Сверка ИИ с официальными цифрами и наследием редлайнинга

Затем команда проверила, давали ли оценки ИИ ту же картину, что и официальная статистика о затяжных последствиях редлайнинга. Используя несколько видов статистических моделей, учитывающих местные особенности, различия в городских сервисах и внешние эффекты между соседними районами, они сравнили исторически отмеченные как редлайнед районы с двумя референтными группами: «идеальными» районами с высокими доходами и «стабильными или в упадке» районами, которые не были помечены как опасные. Во почти всех вариантах моделей оба подхода ИИ воспроизводили знакомую картину: в редлайнед районах по‑прежнему выше уровень бедности и ниже покрытие деревьями по сравнению с контрольными территориями. Важно, что оценки пробелов, полученные GPT-4o, почти полностью совпадали с официальными данными, тогда как модель на основе подсчёта пикселей чаще недооценивала степень связи бедности с редлайнингом.

Почему более целостное понимание улицы работает лучше

Чтобы понять причины, авторы проанализировали, насколько каждая методика объясняет вариации официальных показателей бедности и кроновой площади деревьев. GPT-4o самостоятельно захватывал примерно ту же долю структуры бедности, что и богатый набор демографических и образовательных статистик, и значительно больше, чем модель сегментации. Его преимущество было особенно заметно в наименее обеспеченных и наиболее богатых деревьями районах, где вопросы политики часто самые острые. Это указывает на то, что бедность оставляет след не только в отдельных объектах, например в количестве деревьев, но и в более широких подсказках — уходе за постройками, форме зданий и пренебрежении инфраструктурой. Способность GPT-4o учитывать всю сцену позволяет ему уловить эти тонкие сигналы, которые простые подсчёты пикселей могут пропустить, при этом модель всё ещё хорошо работает для оценки покрытия крон, где подсчёт действительно важен.

Figure 2. Параллельный показ двух методов ИИ, превращающих уличные фото в цветные карты, которые выявляют различия в бедности и покрытии деревьями.

Новые инструменты для более справедливых и зелёных городов

В исследовании делается вывод: правильно составленные подсказки для мультимодальной большой языковой модели могут превращать обычные уличные изображения в своевременные индикаторы бедности и теневой кроновой площади на уровне районов, которые тесно согласуются с проверенными источниками. Поскольку этот подход не требует обучения новой модели для каждого города и может выполняться неспециалистами при надлежащем контроле, он представляет практичный инструмент для планировщиков, агентств и общественных групп: картировать места, где социальные и экологические разрывы совпадают, отслеживать эффективность местных программ и перенаправлять ресурсы по мере изменения потребностей, при этом сохраняя участие человека для надзора.

Цитирование: Howell, A., Wu, N., Bagchi-Sen, S. et al. Multimodal large language models, street view images and urban policy-intelligence: recovering the sustainability effects of redlining. npj Urban Sustain 6, 79 (2026). https://doi.org/10.1038/s42949-026-00380-7

Ключевые слова: городская устойчивость, редлайнинг, уличные снимки, мультимодальный ИИ, крона деревьев