Clear Sky Science · zh

用于范围3机器学习应用的全球排放因子数据集

· 返回目录

为何追踪隐性碳很重要

现代公司的气候影响大多并非来自自家烟囱,而是来自漫长而纠结的供应链——它们购买、销售、运输和外包的一切。这些所谓的“范围3”排放 notoriously难以追踪。本文介绍了 ExioML,一套开放的全球数据集与工具包,它将几十年复杂的经济与环境记录转化为可供机器学习使用的数据。这使研究人员、政策制定者和企业更容易估算排放真实来源、公平比较方法并设计更智能的气候解决方案。

Figure 1
Figure 1.

将世界经济视为一张网络

ExioML 的核心是一种将世界经济视为跨境行业相互交易的巨大网络的方法。与其仅计算一国境内释放了多少碳,这种方法沿着供应链追踪排放的轨迹:从原材料、到工厂、到商店,最终到达消费者。现有执行此类追踪的数据库功能强大,但常常被付费墙阻隔、使用复杂或已过时。作者基于最详尽的开放资源之一 EXIOBASE,将其重组,使任何人都能轻松提出类似的问题:在某国某年,钢铁生产对应多少温室气体,或者某一地区的排放如何嵌入在其他地区消费的产品中。

把原始数字变成可用数据

原始 EXIOBASE 文件规模巨大——超过 40 GB,包含描述数百个部门在数十个地区间交易的表格,以及对应的排放、资源和能源使用记录。作者设计 ExioML 将这种复杂性提炼为两部分。第一部分是“因子核算”表:一张结构清晰的电子表格,每行对应特定地区和年的具体部门,列包括增加值、就业、能源使用和温室气体排放。第二部分是“足迹网络”:一张精简的地图,展示部门间最强的贸易联系,显示资金、能源和排放如何在全球经济中流动。为生成这些数据,他们依赖高性能图形处理单元(GPU)来处理沿供应链追踪排放所需的大规模矩阵计算,并统一单位、部门编码与命名,以便可直接比较所有 49 个地区和 28 年的数据。

Figure 2
Figure 2.

为现代机器学习而建

ExioML 从一开始就以机器学习为设计目标。该数据集覆盖 1995 到 2022 年的 49 个地区,并提供两种兼容视图:一种按 200 种产品类型划分,另一种按 163 个行业划分。此结构允许研究者将每个部门–地区–年视为一个数据点,结合简单的数值特征——如人口、人均收入、单位产出能耗或单位能源排放——以及关于部门所在位置和类型的分类信息。作者还发布了开源软件包,可加载数据、生成网络摘要,甚至提供现成的训练、验证与测试划分。这降低了气候科学家和数据科学家在不先成为专业经济核算专家的情况下构建模型的门槛。

测试模型预测排放的能力

为展示 ExioML 的用途,作者设定了一个基准任务:从一小组经济与能源相关指标中预测某部门的温室气体排放。他们比较了经典的机器学习模型(如最近邻和基于树的集成方法)与可自动学习特征组合的现代深度学习方法。经过仔细的数据清洗、缩放与划分后,结果显示简单的线性模型表现不佳,确认了产出、就业、能源使用与排放之间的关系高度非线性。基于树的方法和神经网络均表现良好,其中一款门控神经模型取得了最佳精度。然而,相较于经过良好调参的梯度提升树,深度模型的改进有限,同时训练时间更长且更难微调。

这对气候与数据工作意味着什么

对非专业人士来说,关键是 ExioML 将一团不透明的全球经济与环境数据转变为一个可共享的、开放的基础,任何人都可以基于此构建。试图理解采购气候影响的公司、设计算法以识别高排放热点的研究者,以及探索政策或技术变化如何可能改变未来排放的分析师,都可以从同一透明资源出发。研究表明,借助合适的结构,即使是相对简单的机器学习工具也能捕捉到跨部门与地区排放的许多隐含模式。通过结合开放性、技术严谨性与实用软件,ExioML 有助于将碳核算从私人估算的拼凑推向更可重复、数据驱动的科学。

引用: Guo, Y., Guan, C. & Ma, J. Global emission factor dataset for Scope 3 machine learning applications. Sci Data 13, 348 (2026). https://doi.org/10.1038/s41597-026-06699-1

关键词: 范围3排放, 碳核算, 投入产出分析, 机器学习, 供应链排放