Clear Sky Science · zh
与地区并进:一种用于估算区域投入产出表的混合机器学习框架
为何区域经济重要
当一家工厂关闭、一所新医院开业或一个港口扩建时,其影响会超出直接的工作场所而波及更广范围。经济学家使用详尽的“投入—产出”表来追踪资金和就业如何在农业、制造业和服务业等部门之间流动。然而,对大多数国家内部的区域而言,构建这些表格既昂贵又需大量数据,因此很少更新(甚至根本没有更新)。本文提出了一种使用现代机器学习来估算这些区域经济图谱的新方法,为规划者、分析师以及任何关心地方经济如何互联的人提供更快速、更准确的工具。

描绘局部经济联系的难题
投入—产出表描述了一个经济体中谁从谁那里购买什么:汽车制造商购买了多少钢材、制造业使用了多少法律服务,等等。许多国家拥有国家级表格,但地方版本——例如州、省或城市区域的表格——往往缺失,因为它们需要大规模且昂贵的调查。为了解决这一问题,经济学家通常从国家表出发,用简单的数学方法将其重塑,使之匹配已知的区域总量,例如按部门的就业或产出。常用的捷径(如位置商和RAS方法)成本低、速度快,但可能扭曲关键模式,尤其是行业自用和与少数重要伙伴之间的大量采购倾向。这些扭曲可能误导基础设施投资、气候政策或应对冲击的决策。
将传统经济学与新算法结合
作者提出了一个混合框架,将经典经济结构与最先进的人工智能结合起来。核心是一类称为生成对抗网络(GAN)的生成模型,这类模型常用于创建逼真的图像。在这里,GAN不是生成图片,而是学习生成整张类似历史观测到的投入—产出表。一个特殊的内部层强制每张生成的表满足严格的会计规则:行列总额必须与已知的区域数据相匹配,且项不能为负值。这使得机器学习模型扎根于基本经济学规则,而不是仅仅追逐纯统计模式。
微调初稿
即便是训练良好的GAN也倾向于产生小而系统性的误差——例如,略微低估某些部门的自用强度。为了解决这个问题,作者加入了第二阶段,称为残差提升(residual boosting)。在GAN给出最佳猜测后,一组独立的决策树模型学习其常见错误并预测修正量。随后对修正后的表格进行温和调整以避免不现实的值。这种两步设计利用了GAN把握整体轮廓(例如流量的总体形状和集中度)的能力,同时用提升器来精炼局部细节。该方法还考虑到真实经济中存在少数非常大的流量与大量微小流量的偏斜格局,并明确鼓励模型去模拟这种偏态分布。

对方法进行检验
为了验证这种混合方法在实践中是否有效,作者在两组主要数据集上进行了测试:一组来自多国的国家级表格集合,以及一组描述跨数十个行业和区域的全球供应链的世界投入—产出表。因为在这些案例中真实表格是已知的,研究者可以将估计结果直接与真实情况以及改进后的传统RAS方法进行比较。在多种评估标准——总体拟合度、平均误差、主对角线的再现程度,以及大流量与小流量分布的不均匀性保留程度——上,混合方法均表现优越。在国家数据集中,相较于改进的RAS,标准拟合优度指标提高了近九个百分点,并且对行业内部自用的捕捉准确度提高了超过一倍。在全球表格上,其吻合程度更高,几乎完美再现了底层结构。
对现实决策的意义
对非专业人士而言,关键结论是:我们现在可以在不派调查团队逐户上门的情况下,构建更可靠的区域经济图景。混合模型保留了政策分析师所信赖的会计逻辑,同时让先进的机器学习发现旧工具可能遗漏的微妙规律。更好的区域投入—产出表能带来更可信的估计,帮助判断地方冲击如何传播、哪些行业最为关键、以及政策如何通过就业、收入和排放产生连锁反应。尽管该方法仍依赖于优质的训练数据并比传统方法需要更多的计算资源,其强劲的表现表明,现代数据科学能够显著锐化我们观察区域发展、韧性与结构性变化的视角。
引用: De Pretis, F., Tortoli, D. & Caria, S. Keeping up with the regions: a hybrid machine learning framework for estimating regional input-output tables. Sci Rep 16, 10893 (2026). https://doi.org/10.1038/s41598-026-45382-8
关键词: 区域投入产出表, 经济网络, 机器学习, 生成模型, 区域发展