Clear Sky Science · zh

WorldMove:用于人类出行的全球开放数据

· 返回目录

为何我们的日常出行至关重要

每天,数十亿次出行——步行上学、乘公交上班、前往公园或商店——悄然塑造着城市的呼吸与发展。理解这些移动对于缓解交通拥堵、规划更绿色的社区以及应对疾病暴发至关重要。然而,关于人们何时何地出行的详细数据通常被锁在公司数据库或受隐私规则限制,许多城市——尤其是低收入地区的城市——几乎没有任何数据可用。本文介绍了 WorldMove,一种新的全球开放且保护隐私的方式,用于研究人类出行,而无需追踪任何真实个体。

Figure 1
Figure 1.

由开放线索构建的世界地图

WorldMove 并不通过手机或银行卡追踪个人,而是从公开可得、已去标识化的数据入手,这些数据描述的是城市空间而非个人。对于覆盖 179 个国家的 1,600 多座城市,作者首先使用一个开放的全球地图数据库绘制精确的城市边界。随后将每座城市划分为一公里宽的小方格,就像在城市景观上覆盖一个统一的网格一样。对于每个方格,他们收集公开信息:估计居住人数、所包含的场所类型(如商店、学校、公园或医院)、基于通勤统计的受欢迎程度,以及它在一个简单本地坐标系中的位置。这样,城市被转化为一个由小区域组成的结构化镶嵌图,每个区域都有丰富的属性但没有个人标识信息。

教人工智能识别地点,而非人物

为了教会人工智能系统人们通常如何在这些区域间移动,团队采用了两步学习过程。首先,他们使用一种称为自编码器的技术,将每个方格的特征压缩为简短的数值“指纹”。在抽象空间中,扮演类似城市功能的方格——繁忙的市中心、安静的郊区、工业区——会彼此靠近,即便它们来自不同国家。接着,利用来自中国、美国和塞内加尔六个城市的真实但受严格保护的移动记录,系统学习这些指纹在一天和一周内的访问模式。关键在于,系统学习的是这种抽象空间中的模式,而不是记忆具体路线或个人。

从抽象模式回到城市街区

训练完成后,模型可以在抽象指纹空间中生成新的、外观逼真的移动序列,使用一种现代“扩散”过程,将随机噪声逐步塑造成合理的日常路径。这些合成路径随后通过将每个抽象点与最相似的城市方格配对,映射回真实的城市网格。生成轨迹的数量以城市人口规模为准,并且可由用户调整。结果是在任何城市中为许多匿名的“虚拟居民”生成一整周的移动历史记录,即便在原始移动数据不存在的地方亦可实现。项目同时发布边界文件、网格定义和基础的地点特征,以及允许他人生成自定义数据集的代码。

Figure 2
Figure 2.

检验真实性、公平性与隐私

为了确保这些虚拟旅程有用,研究者在多个维度上将其与隐藏的真实世界数据进行比较。他们发现基本统计数据,如人们通常行程的距离、一天内访问的不同地点数量、停留时长以及返回常去地点的频率,都高度吻合。人类流动性的经典“定律”——例如大多数出行较短但少数出行很远,或少数地点占据大部分访问——在合成数据中自然出现。在城市尺度上,不同街区间的通勤流动模式和高峰时段的拥堵也与现实相似。用于检测隐私泄露的测试表明,攻击者无法可靠地区分某个特定模式是来自训练数据还是模型生成的,这表明个体路径并未被记忆。

为规划、健康与公平开启新途径

由于 WorldMove 是开放且合成的,它可以被广泛共享并与其他公共信息结合使用。作者展示了这些数据如何驱动详细的交通模拟,以估算不同车辆类型的碳排放,并测试在高峰时段减少汽车流量如何显著降低污染。在另一个示例中,他们将模拟出的移动与绿地地图和社区人口统计数据结合,用于研究不平等的公园可达性及其与心理健康的关系。他们还表明,在有限的真实数据中加入合成轨迹可以提高出行预测模型的准确性,尤其是在只有稀疏测量的城市中。

一种安全的方式观察城市如何移动

本质上,WorldMove 提供了一个面向人类移动的全球“飞行模拟器”:既足够丰富以捕捉城市的真实运作,又与任何可识别的个人相分离。通过结合开放的地理数据与经过严格保护的真实移动样本进行学习,该系统能够重建 1,600 多座城市的典型出行模式,并将其推广到鲜为人知的地区。这为城市规划者、交通工程师和公共卫生研究人员提供了一个强大且尊重隐私的工具,用来探索各种假设情景——从新增公交线路到更绿色的社区——帮助让未来城市更公平、更清洁、更有准备应对变化。

引用: Yuan, Y., Zhang, Y., Ding, J. et al. WorldMove, a global open data for human mobility. Sci Data 13, 549 (2026). https://doi.org/10.1038/s41597-026-06555-2

关键词: 人类流动性, 合成数据, 城市规划, 隐私保护型人工智能, 全球城市