Clear Sky Science · zh
一种在训练速度与准确性之间取得平衡的传染病预测模型数据隐私保护方法
为何保护健康数据仍然至关重要
医院和卫生机构如今依赖人工智能提前数天或数周预测流感、新冠及其他感染的爆发。这些预测可以指导疫苗接种活动、人员配备和应急规划。然而,使预测准确的同样是极为敏感的详细病人记录。法律和公众关切常常阻止跨机构汇集数据,从而削弱了这些模型的效力。本文提出了一种方法,可在将每家医院的数据安全地保留在本地的同时,训练出高质量的传染病预测系统。
在不共享病历的情况下向多家医院学习
作者在一种称为联邦学习的技术基础上展开工作,若干医院共同训练一个共享的预测模型。各站点并不将原始病人记录复制到中央服务器,而是在本地训练模型,仅返回对模型内部参数的数值更新。中央服务器汇总这些更新并将改进后的模型分发回各站点,如此循环多次。从理论上讲,联邦学习能保护隐私,因为个人信息从未离开机构。但在实践中,巧妙的攻击者有时能从共享的更新中推断出底层数据的细节,因此需要额外保护。 
用智能加密锁住这些数字
为了增强安全性,团队采用了同态加密——一种数字锁,允许在加密数字上直接进行计算,而不必以明文形式查看它们。这类传统方案非常安全,但以速度慢和对数据需求大著称,使其难以用于基于长短期记忆(LSTM)网络等大型复杂模型。研究人员设计了一种混合方案,对模型的不同部分采取不同处理。最容易暴露敏感信息的组件使用强但笨重的加密保护,而不那么敏感的部分则使用更轻、更快的锁。此外,一个预先安排的随机计划决定在哪些训练轮次中各站点实际发送加密更新,从而允许它们跳过冗余通信。测试显示,与在所有位置都使用重型加密相比,这种组合将训练速度提高了约25%,同时在强密码学假设下保持数据受保护。
只发送真正重要的更新
即便有更聪明的加密,将模型中每一处细小变化在机构间来回传输也会浪费时间和网络带宽。因此作者提出了一种新的训练规则,称为数据选择—分布式选择随机梯度下降(DS-DSSGD)。在训练过程中,算法衡量模型每个部分从一步到下一步的变化幅度。只有超过预设阈值的更新才会被传输;微小、影响有限的变化则被忽略。同时,算法追踪哪些数据点导致了最大、最具信息量的变化。这些有影响力的记录被汇集成一个精炼数据集,用于最后一轮训练。对宜昌市三年真实感染报告与本地网络搜索趋势进行的实验表明,DS-DSSGD 与若干标准方法相比,可将训练时间缩短约10%,而预测准确性没有显著下降。
一个用于安全协作的实用平台
技术进步只有在医院和实验室能实际使用时才有意义。为弥合这一差距,团队将其方法集成到名为“益书坊 XDP 隐私安全计算平台”的真实计算环境中。XDP 管理健康数据的整个流程,从收集与清洗到加密分析与结果共享。它支持统计学家、生物信息学家和临床医生熟悉的工具,并允许来自不同机构的研究人员在受控工作区内协作而无需下载原始数据。在该平台中,混合加密方案和 DS-DSSGD 算法作为可插拔组件运行,将理论框架转化为可工作的系统。 
这对未来爆发预测意味着什么
用通俗的话说,这项研究表明,在传染病预测领域可以“兼得两者”:既保护病人隐私,又能在来自多家机构的数据上训练快速且准确的模型。通过以恰当强度对模型不同部分加密、仅在必要时发送更新,并将所有内容封装在一个安全的协作平台内,作者将隐私成本从难以承受的负担降为可管理的开销。如果广泛采用,此类方法可以让医院和公共卫生机构在不暴露个人病历的情况下,共同汇聚知识应对下一次流行病。
引用: Wang, X., Jiang, Y., Pan, G. et al. A data privacy protection method for infectious disease prediction models with balanced training speed and accuracy. Sci Rep 16, 7415 (2026). https://doi.org/10.1038/s41598-026-38906-9
关键词: 传染病预测, 健康数据隐私, 联邦学习, 同态加密, 深度学习