Clear Sky Science · zh

WxC-Bench:用于天气与气候下游任务的新型数据集

· 返回目录

为何更聪明的天气数据至关重要

从颠簸的飞行到暴雨成灾和愈发强劲的飓风,大气以无数方式影响着日常生活。近年来,人工智能已开始比传统数值模式更快且在有时更准确地进行天气预报。但这些强大的系统通常只为单一任务训练,并且依赖精心准备的数据。本文介绍了WxC-Bench,这是一个新的开放数据集,旨在为人工智能提供对大气更丰富、更干净的视角,以便单一模型能够学习多种不同的天气与气候任务,而不仅仅是一个任务。

Figure 1
Figure 1.

汇聚多种类型的天气数据

WxC-Bench(Weather and Climate Bench的缩写)起于一个简单的想法:如果我们希望为地球大气打造通用人工智能,就需要一个将多种天气数据与问题集中、良好组织的单一场所。当今领先的AI天气系统通常侧重于中期预报——预测数日以后的情况——并使用一个大的数据池。WxC-Bench更进一步。它汇集了来自卫星、长期再分析资料、高分辨率预报模式、飓风档案,甚至机组人员飞行报告的信息。作者对这些来源进行了清洗与标准化,使其可以被机器学习工具直接使用,减少为新研究准备数据所需的时间与专业知识。

一个“台架”中的六个真实世界气象问题

WxC-Bench不是围绕单一的预报技能评分组织,而是围绕六个实用任务展开,这些任务跨越不同的时间与空间尺度。一个极端例子是航空颠簸,这是一种短时、小尺度的危险,可能在毫无预警的情况下震动飞机。在此任务中,数据集将美国上空的大气每日快照与飞行员提交的报告联系起来,使AI模型能够学习粗糙气流常出现的地点。另一项任务关注重力波——在大气层之间传递能量与动量的波动,这类现象在气候模式中 notoriously 难以表示。为此,WxC-Bench提供了全球的风场与温度场,以及这些波携带的细微动量通量,为AI提供了一个罕见的训练场,用以学习传统模式必须近似处理的过程。

Figure 2
Figure 2.

从历史模式到未来的降雨与风暴

WxC-Bench的其他任务在时间和空间上向外延伸。一个天气“类比”数据集帮助AI找到与当前模式相似的历史情形,类似于人类预报员回忆过去的风暴。作者将全球再分析切片成数百个重叠的图块,以便模型可以在本地或全球范围内搜索相似的气压或温度模式。在更长的时间尺度上,一个降水数据集要求模型预测多达数周后的日降雨量——正是对农业和水资源规划至关重要、但当今预报常常失准的时间窗口。该集合使用了近四十年的卫星观测和可获得的最佳降雨估计,让AI学习当今大尺度云系如何与多日之后的降雨相关。

飓风、飞行安全与通俗预报

WxC-Bench还针对高影响极端事件与沟通任务。一个飓风数据集汇编了四十多年来自各大洋盆的风暴路径与强度记录,涵盖从弱热带风暴到最具破坏性的五级系统。通过结合如此多的地区与环境,它使AI能够探索哪些条件有利于快速增强或异常路径。最后,一个自然语言任务将覆盖美国的格点天气图与人类撰写的预报讨论文本配对。在经过仔细的文本清理——去除标点噪声与重复的填充词等杂质后,该部分数据训练模型将复杂的气象图转化为清晰的书面摘要,使AI更进一步地接近撰写易于理解的天气预报。

用基线AI模型检验数据

为表明这些精心整理的数据集确实可供机器学习使用,作者为每项任务运行了一系列基线模型。简单的神经网络已能比旧方法更好地区分湍流与平静区域;专用网络能再现山脉与风暴通道周围重力波效应的关键模式;图像检索模型成功找到与给定模式相似的历史天气图;一个在卫星数据上训练的自回归系统能在数周尺度上以与受尊敬的国际预报中心相当的技能预测降雨。对于飓风与预报文本,现代架构如FourCastNet与视觉—语言模型展示了这些数据能够支持现实的风暴追踪与合理的书面摘要,尽管仍有改进空间。

这对未来天气AI意味着什么

综观而言,WxC-Bench与其说是单一数据集,不如说是构建与测试下一代天气与气候AI的工具箱。它覆盖从数秒到数周、从局地颠簸到全球风暴统计与通俗报告的问题,挑战AI系统超越单一狭窄任务进行泛化。由于WxC-Bench是公开可用的,并提供代码与便于访问的Python包,研究者可以对新的基础模型进行基准测试、进行公平比较,并逐步通过新增任务来扩展该集合。对于非专业读者来说,结论是:像WxC-Bench这样更好组织的数据,使我们更接近能更早预见危险风暴、引导更安全航班、支持水利与农业规划并以日常语言解释明天天气的AI系统。

引用: Shinde, R., Ankur, K., Phillips, C.E. et al. WxC-Bench: A Novel Dataset for Weather and Climate Downstream Tasks. Sci Data 13, 596 (2026). https://doi.org/10.1038/s41597-026-06839-7

关键词: 人工智能, 天气预报, 气候数据, 飓风, 降水预测