Clear Sky Science · zh

多模态大型语言模型、街景影像与城市政策情报:重建红线历史对可持续性的影响

· 返回目录

为何城市街道与旧地图仍然重要

许多城市正努力减少贫困并保护居民免受高温影响,但它们经常缺乏逐街区、最新的关于援助最需之处的信息。本研究展示了现代人工智能如何读取普通街景照片,以揭示低收入和低树冠覆盖仍然聚集的地方,尤其是在亚利桑那州菲尼克斯那些受历史性红线政策影响的社区。

Figure 1. 人工智能读取城市街道照片,绘制菲尼克斯由红线政策塑造的社区中贫困与低树冠重叠的区域分布。
Figure 1. 人工智能读取城市街道照片,绘制菲尼克斯由红线政策塑造的社区中贫困与低树冠重叠的区域分布。

旧有住房评级与当今不平等的街区

上世纪三十年代,联邦住房地图将某些社区标注为对房贷“有风险”的地区,这一过程称为红线划定。那些地方通常有更多有色人种居民和更老旧的住房,数十年来获得的公共与私人投资更少。在美国最热的大城市之一菲尼克斯,这段历史仍然重要,因为资金较少和树木较少的地区面临更危险的高温和更差的生活条件。作者关注社区健康的两个简单支柱:住在贫困线下的居民比例,以及树冠为阴凉提供的覆盖量。

将街景照片转化为社区成绩单

研究人员在一千多个小型社区收集了近两万张 Google 街景图像。随后他们构建了两类“阅读”这些图片的工具。一种工具使用多模态大型语言模型 GPT-4o,它观察整个场景并用通俗语言推理出诸如住房质量、可见维护情况和绿化等线索,然后将这些推理转换为贫困与树冠覆盖的数值评分。另一种工具是标准的计算机视觉模型,将单个像素分类为道路、建筑或树木等类别,然后统计每类所占的比例。对每个社区,团队对多张图像的结果取平均,并将这些基于 AI 的衡量与美国人口普查的贫困官方数据和谷歌环境洞察探索器的树冠数据进行了比较。

用官方数字与红线遗产检验 AI

团队接着检验 AI 估计是否与官方统计数据讲述相同的关于红线长期影响的故事。通过使用多种统计模型来考虑本地特征、城市服务差异和邻近社区间的外溢效应,他们将历史上被划为红线的地区与两组参考区域进行了比较:“理想”高收入地区以及未被标注为危险的“稳定或衰退”地区。在几乎所有模型版本中,两种 AI 方法都再现了一个熟悉的模式:被红线划定的社区仍然比对照地区有更高的贫困率和更低的树冠覆盖。关键是,GPT-4o 对这些差距的估计几乎与官方数据一致,而像素计数的分割模型则倾向于低估贫困与红线之间的紧密关联。

为何整体性的街景理解更有效

为理解原因,作者考察了每种方法解释官方贫困率和树冠差异的能力。单独使用 GPT-4o 就能捕捉到与一套丰富的人口统计和教育统计相当的贫困模式,且远胜于分割模型。其优势在最不利或树冠最丰富的社区中尤其明显,而这些地方往往是政策问题最紧迫的区域。这表明,贫困不仅在孤立的对象(例如树木数量)上留下印记,也体现在更广泛的线索中,如维护状况、建筑形态和基础设施的忽视。GPT-4o 考虑整个场景的能力使其能够捕捉到这些细微信号,而简单的像素计数可能会错过这些信号,同时它在树覆盖度量上仍表现良好,因为那里计数树冠本身非常重要。

Figure 2. 并列展示两种人工智能方法如何将街景照片转换为彩色地图,揭示贫困与树冠覆盖的差异。
Figure 2. 并列展示两种人工智能方法如何将街景照片转换为彩色地图,揭示贫困与树冠覆盖的差异。

为更公平、更绿色的城市提供新工具

研究结论是,精心设计的提示词对于多模态大型语言模型能够将常见的街景影像转化为与可信来源高度一致的及时的社区尺度贫困与树荫指标。由于该方法不需要为每个城市单独训练新模型,且在有适当核查的情况下可由非专业人员运行,它为规划者、政府机构和社区团体提供了一种实用方式,用以绘制社会与环境差距重合之处、跟踪地方项目是否有效并根据需求变化重新定向资源,同时保留人工监督以确保可靠性。

引用: Howell, A., Wu, N., Bagchi-Sen, S. et al. Multimodal large language models, street view images and urban policy-intelligence: recovering the sustainability effects of redlining. npj Urban Sustain 6, 79 (2026). https://doi.org/10.1038/s42949-026-00380-7

关键词: 城市可持续性, 红线政策, 街景影像, 多模态人工智能, 树冠覆盖