Clear Sky Science · zh

使用强化学习并结合英国 COVID-19 流行病数据优化传染病干预措施

2026-03-31 · 返回目录

应对艰难卫生决策的智能工具

当一种新疾病在一国蔓延时，领导者必须迅速决定对日常生活采取多严厉的限制。全面封锁可能挽救生命但重创经济；行动迟缓则医院可能不堪重负。本文探讨一种称为强化学习的人工智能方法，是否能借助对病毒（如 COVID‑19）在真实社区中传播的精细模拟，帮助政府找到更聪明、更均衡的应对策略。

在计算机中模拟一个国家

作者没有使用把人视为同质个体的简单方程，而是基于 Covasim 构建了一个复杂的计算模型，跟踪数千个虚拟个体的生活、工作、学习与互动。每个模拟人的年龄、在家庭、学校和工作网络中的位置以及可能从健康转为感染、康复或死亡的健康状态均被建模。通过认真调整模型参数，团队使这个虚拟的英国在第一波 COVID‑19 期间表现得像真实的英国，匹配 2020 年初的官方病例和死亡数据。这个校准步骤至关重要，因为计算机学到的任何策略都必须在类似我们现实世界的环境中有效，而不是在一个玩具宇宙中。

教会数字顾问采取行动

一旦模型表现接近现实，研究人员就引入强化学习——一种软件“代理”通过反复尝试决策并根据结果获得奖励或惩罚来学习的人工智能分支。在这里，代理可以每周调整三项主要控制杠杆：局部封锁的严格程度、检测人数以及接触者追踪的力度。奖励体系设计为兼顾两项相互竞争的目标：将感染、重症和死亡保持在低水平，同时限制因关闭工作场所和隔离人员而对经济造成的损害。通过运行数千次模拟流行病，代理发现了哪些措施组合与时机能获得最高的整体评分。

比固定规则更能找到平衡

研究比较了几种学习方法和不同的动作表述方式。其中一种将行动视为连续调节而非少数固定选项的方法表现尤其优异。它学会在病毒开始传播时迅速反应，施行短期但强力的限制，同时配合密集的检测与追踪。随着模拟中的疫情受控，它放松封锁但保留部分检测与追踪，若感染有反弹风险则再次短暂收紧。这种灵活模式使模型中的总感染数约为 30 万，远低于同期英国实际政策下发生的情况，也低于简单的“七天开放、七天封锁”规则。与那种僵化的交替封锁策略相比，模型中的经济损失减少了超过三分之二。

时机极为关键

作者还考察了不同策略对实时有效繁殖数（每个病例产生的新感染数）的影响。在他们的模拟中，AI 设计的政策比实际英国反应提前约一个月将该数值压到关键的 1 以下。这看似微小的时差能显著减少累计感染，凸显出早期、周密行动的重要性。他们还将学到的策略应用于一个非常不同的情境——使用香港在 2022 年的大规模 COVID‑19 浪潮数据进行测试，发现该策略仍然表现良好，表明所学规则体现的是普遍原则，而非对某一国家的过度拟合。

对未来暴发的意义

对于非专业读者，主要结论是我们无需在拯救生命与保住生计之间盲目抉择。通过将病毒在真实社会网络中传播的详细模拟与通过试错学习的人工智能结合起来，决策者可以得到随情形变化而调整的数据驱动方案。作者强调，此类工具并非要取代人类判断，而是作为强有力的决策辅助，能比人类更快地探讨无数情景假设。随着新一轮流行病的出现，这一方法可帮助领导者更早、更精确地采取行动，利用有针对性的检测、追踪和局部关闭，在控制疾病的同时尽量保留正常生活和经济活动。

引用: Zhang, B., Chen, Y., Li, H. et al. Optimization of infectious disease intervention measures using reinforcement learning with UK COVID-19 epidemic data. Sci Rep 16, 10627 (2026). https://doi.org/10.1038/s41598-026-39377-8

关键词: COVID-19 政策, 强化学习, 流行病模拟, 非药物干预措施, 公共卫生战略