Clear Sky Science · zh

通过大模型增强的时空变换器进行城市盗窃预测

2026-03-31 · 返回目录

城市居民为何应当关注

对在大城市生活、工作或购物的人来说，盗窃不仅仅是一个统计数字；它影响我们在街道、商店和公共交通上的安全感。该研究以纽约市为例，提出一个务实的问题：能否利用现代人工智能按小时、按街区预测盗窃高风险地点，同时避免简单复制以往的执法偏差？答案可能帮助城市在有限警力下更谨慎地保护人和财产。

Figure 1. 来自不同城市数据流的结合突出了纽约各社区盗窃风险集中的区域。

盗窃何时何地真正聚集

研究者首先展示了盗窃在纽约分布的严重不均。通过在城市上覆盖细网格，他们发现一些小区域的盗窃发生频率比其他地方高出数百倍。大约一半的盗窃案件集中在极少数街区，尤其是在像曼哈顿中城这样的商业密集区。季节与时段也有重要影响：温暖月份、节假日购物期和通勤高峰时段会把更多人带到街头和商店，增加盗窃机会。天气、照明与社区类型也带来变化，繁华商业区在晴朗干燥的夜晚尤其成为高风险时刻。

把城市生活转化为数据

为了捕捉这一复杂图景，团队结合了五类信息：详细的历史盗窃警方记录、作为人流与聚集代表的小时计程车上下车数据、商店住宅公园和交通枢纽的地图、夜间灯光的卫星图像，以及基本的天气和人口普查数据。由此构建出数十个指标：每个网格单元的犯罪重复频率、傍晚商业区的拥挤程度、一个街区对邻近街区盗窃风险的溢出效应，以及随降雨或气温变化的犯罪率升降。他们还衡量每个地点自上次盗窃以来的时间长短，这被证明是判断近期是否可能再次发生盗窃的有力线索。

Figure 2. 分层城市地图展示了人流、场所与人工智能信号如何融合以提升逐街区的盗窃风险预测精度。

赋予语言模型城市感知

关键步骤是让大型语言模型阅读每个地点与时刻的简短结构化描述：街区位置、包含的场所类型、夜间灯光亮度、刚到达的计程车乘客数量、天气状况以及该处以往的盗窃频次。模型随后输出估计的盗窃风险和关于功能、拥挤与时间如何相互作用的语义提示。这些丰富的文本化见解被转为数值向量并经仔细筛选，以避免仅仅重复结构化数据。结果是对每个网格单元的高维画像，既反映原始计数，也体现语言模型从大量城市与犯罪相关文本中学到的模式。

预测引擎如何工作

所有这些特征被输入到一个时空变换器模型中，这是一种专为同时追踪空间和时间模式而设计的神经网络。模型首先将不同类型的特征置于同一基础，然后应用注意力机制学习对每次预测而言哪些相邻街区和最近几小时更重要。它还将语言模型的风险评分作为先验信念，并用观测数据对其进行柔性调整，从而避免任一方过度主导。该系统在多年的纽约数据上训练后，能够为每个网格单元和每个小时预测至少发生一起盗窃的概率。在测试中，它在区分盗窃与非盗窃情形方面表现出较高判别力，并取得反映出在捕捉真实热点与避免误报之间良好平衡的F1分数。

对日常安全的意义

对非专业读者而言，结论是盗窃风险并非随机；它与人们如何在城市中移动、不同区域如何被使用以及近期事件如何展开密切相关。通过将传统犯罪统计与类似实时的信号（如计程车流量和夜间灯光）以及语言模型的解释能力结合，这种方法能够标记出少数街区和时段，那些地方和时间段实际上承担了城市大部分盗窃发生。尽管该方法仍需在其他城市进行测试并做公平性方面的严格检验，但它指向了可能帮助警务和城市规划者在特定时间聚焦特定繁忙高风险区域、而不是对整个社区一网打尽的工具。

引用: Tang, M., Wang, J., Bu, X. et al. Urban theft prediction via LLM-empowered spatiotemporal transformer. Sci Rep 16, 15525 (2026). https://doi.org/10.1038/s41598-026-45681-0

关键词: 城市犯罪预测, 盗窃热点, 时空建模, 动态人口流动, 大规模语言模型