Clear Sky Science · zh

基于树的集成学习在空气污染物预测模型中的适用性分析

· 返回目录

为何更清洁的空气需要更智能的预报

大城市的人们常常在清晨想知道室外空气是否适合慢跑、通勤或让孩子在户外玩耍。天气应用现在在温度旁显示空气质量指数,但这些数字的可靠性取决于支撑它们的模型。本研究提出了一个务实且与现实相关的问题:哪类现代人工智能工具能最好地同时预测多种主要空气污染物,为什么会这样?

逐日追踪城市空气

研究者将重点放在中国四个最大的直辖市——北京、上海、天津和重庆,因为它们覆盖了不同的气候和污染格局,从冬季的雾霾到夏季的臭氧。他们汇集了 2021 至 2024 年间超过五千条日记录,每条记录将六种关键污染物(包括细颗粒物、可吸入颗粒物、二氧化氮、二氧化硫、一氧化碳和臭氧)的测量值与温度、湿度、风速、降水和气压等气象数据结合。为了充分利用这些观测,他们还加入了额外线索:前几日污染的滞留效应、温度与风对污浊空气扩散的交互作用,以及颗粒物与气体的组合度量如何更好地反映健康风险。

Figure 1
Figure 1.

教“数字树”读懂空气

团队没有采用传统的以物理为主的天气模式,而是转向一类称为基于树的机器学习的数据驱动工具。这些算法通过反复将数据分裂成分支来做出决策,有点像二十个问题的游戏,逐步逼近最终答案。研究比较了三种变体:简单的决策树;随机森林,它通过对多棵树的结果取平均来平滑噪声;以及梯度提升,它按序构建树以逐步纠正早期的误差。科学家们对每种方法进行了精心调参,并采用了时间感知的测试策略,让模型从过去的日子中学习,并在随后的日子上评估,模拟真实的预报条件。

哪种模型在哪类污染物上表现突出

对比显示没有单一方法在所有方面都最优,但有些方法表现突出。随机森林在细颗粒物、粗颗粒物和二氧化硫的预测上非常准确,能够解释约 99% 的浓度变异——接近监测仪器本身的可测水平。对于一氧化碳和二氧化氮,某些形式的梯度提升几乎与随机森林匹敌,这表明这种逐步修正的方法很适合于与交通和燃烧排放相关、浓度快速升降的污染物。令人意外的是,尽管决策树是最简单的工具,但它在臭氧预测中也有不错的表现,臭氧通过光化学反应生成,常呈现阈值式的行为,这类分支规则恰能捕捉到。

窥视黑箱内部

为了让这些强大模型对政策制定有用,作者不仅需要展示其预测能力,还要解释原因。他们使用了一种称为 SHAP 的技术,为每个预测分配每个输入(如温度、风速或其他污染物)的贡献分数。这项分析揭示了一些耐人寻味的联系。一氧化碳被发现是细颗粒物生成的重要指示物,符合其作为不完全燃烧标志、会产生形成颗粒的挥发物的角色。温度显著推动臭氧生成,反映出炎热晴朗天气如何加速臭氧形成。潮湿空气与二氧化硫的相互作用往往抑制颗粒物增长,而强风有助于清除细小颗粒物,但超过某一阈值后湍流混合反而可能导致局地滞留。这些模式将数学结果与真实大气过程相连接,为有针对性的控制措施提供线索。

Figure 2
Figure 2.

从研究代码到城市预警系统

尽管准确度令人印象深刻,作者指出模型在最严重的霾事件期间仍表现欠佳,且受限于排放来源描绘的粗糙程度和相对较短的数据时间窗。他们建议将传统的天气—化学模拟与机器学习结合,并利用 SHAP 的洞见来设计在污染突发时更智能的应急响应。他们的框架已经在服务北京及邻近城市的区域空气质量预警系统中得到应用。用通俗的话说,该研究表明,经过精心选择且可解释的人工智能可以为城市管理者提供更早、更可靠的污染预警——以及关于应优先治理哪些排放源的更清晰指引。

引用: Zhu, X., Li, B., Cao, Y. et al. Applicability analysis of tree-based ensemble learning for air pollutant prediction models. Sci Rep 16, 9602 (2026). https://doi.org/10.1038/s41598-025-32652-0

关键词: 空气质量预测, 城市空气污染, 机器学习模型, 随机森林, 多污染物预测