Clear Sky Science · zh

利用通用与迁移学习模型预测泰国流感

· 返回目录

为什么流感预测与每个人都息息相关

流感看似常见的冬季疾病,但每年仍使数百万人就医,且在卫生系统措手不及时可能致命。能够预测流感何时何地高发,可让医生与公共卫生官员提前储备疫苗与药物、准备病床并向社区发出预警。该研究以泰国为例,但其核心理念——在数据稀缺的情况下使用现代人工智能提高预测能力——可帮助许多国家为下一轮严重流感季做准备。

Figure 1
Figure 1.

流感、气候与零星的数据

泰国各省的流感负担差异很大,既有研究表明局部气候——如温度、湿度、降雨和空气污染——会影响疫情何时发生。不幸的是,并非处处都有详尽的天气和空气质量监测。在泰国76个省中,只有22个同时有流感病例计数与配套的环境数据;其余省份仅有病例数。传统的统计工具通常为每个地区单独调参,难以应对这种数据拼凑的局面。它们可能漏掉异常模式,且在条件变化时更新缓慢,从而限制了全国范围预警的效用。

为多个地区构建一个模型

研究人员着手构建一个能够同时从22个数据丰富省份中学习的“通用”计算模型。他们使用人工神经网络——一种在松散上模仿大脑细胞处理信息方式的深度学习方法——来预测2010至2019年的月度流感发病率。在训练网络前,他们用一种称为随机森林的机器学习方法从27个候选输入中筛选,这些输入包括当前与滞后的温度、湿度、降雨、风速、能见度、空气污染和近期流感水平。该步骤揭示了哪些因素真正有助于预测,并让作者剔除较无用的变量,使最终模型更快且不易受噪声影响。

通用模型学到的内容

在对不同网络规模进行大量测试后,一个相对简单的设计——单个隐藏层、128个内部单元——表现最佳。有趣的是,在大多数省份中加入气象与空气污染等环境因子仅略微提升了预测能力,在某些情况下几乎没有差异。但有一条明显的信号浮现:温度始终被选为重要变量,这与早期研究将较低或变化的温度与更高的流感活动联系起来的结论一致。在22个省中,通用模型把握住了流感的总体涨落,但往往低估了最高峰值,尤其是在曼谷等大城市和发病率较高的北部省份。

Figure 2
Figure 2.

教会模型帮助数据匮乏地区

真正的挑战是预测其余54个缺乏详尽环境数据的省份。在这里,团队转向了迁移学习——一种将已在一项任务上训练好的模型调整用于相关任务的技术。首先,他们在22个数据完备的省份上训练通用神经网络。接着,他们将模型重新配置为仅使用过去的流感病例作为输入。最后,他们以两种方式对该适配模型进行微调:一种是将54个省的病例数据合并后进行微调,另一种是对每个省分别微调。按省单独微调效果明显最好,降低了预测误差,并比合并方法或仅依赖过去局部流感水平的简单基线模型更接近观测到的趋势。

这对未来流感规划的意义

对普通读者来说,结论是:一个设计谨慎的单一AI模型可以学习到某国部分地区的流感广泛模式,然后将这些知识用于改善其他数据稀缺地区的预测。在泰国,这种方法的最佳版本——一个适度规模、并为每个省单独微调的神经网络——比传统方法更准确地预测了局部流感趋势。尽管该模型仍会低估极端暴发的规模,且尚未纳入社会或经济因素,但它为中低收入国家提供了一个可行蓝图:从数据充足处开始,将学到的知识迁移到数据贫乏地区,并利用这些预测在下一波来袭前指导疫苗分配、人员配置与其他防御措施。

引用: Lueangwitchajaroen, P., Anupong, S., Winalai, C. et al. Leveraging universal and transfer learning models for influenza prediction in Thailand. Sci Rep 16, 6668 (2026). https://doi.org/10.1038/s41598-026-37855-7

关键词: 流感预测, 迁移学习, 深度学习, 流行病预测, 泰国公共卫生