Clear Sky Science · zh

VALORIS:用于隐私保护的多中心健康分析的一次性且无损的垂直逻辑回归

· 返回目录

为何共享健康数据如此困难

现代医学越来越依赖将来自多个来源的信息汇总:医院记录、化验结果、影像,甚至遗传数据。然而,这些信息通常分散在不同机构中,这些机构在法律或伦理上无法将详尽的病人记录集中到一起。这使得开展能够帮助医生预测谁面临严重结局(如肾衰竭或重症监护中死亡)的统计分析变得困难。该研究提出了 VALORIS,一种在多中心执行常用分析同时将每位病人的原始数据安全留在本地的新方法。

患者故事的许多碎片

要理解这一挑战,不妨设想一位慢性肾病儿童的病例分散在多个系统中。一个医院数据库保存年龄、性别和肾功能指标;另一个保存血液检测结果;第三个系统可能跟踪长期结局,例如是否发生肾衰竭。每个站点保存同一批儿童的不同列信息,这种情况称为“垂直”划分。这些机构都不愿意透露其详细记录,有些甚至不能将结局(例如是否发生肾衰竭)透露到外部。然而,研究人员希望构建一个单一的预测模型,像这些数据都在同一地点一样,利用所有分散的信息。

Figure 1
Figure 1.

一种一次性从多站点学习的方法

VALORIS 针对逻辑回归这一常用方法解决了该问题;逻辑回归常用于研究多个因素如何共同影响二元结局,例如器官衰竭或院内死亡。各站点并不传输病人级数据,而是在本地对其数据进行紧凑的计算,汇总变量共同变化的模式。这些汇总看起来像数学矩阵,只需一次性发送到保存结局的特殊角色——响应节点。响应节点将这些汇总合并,进行一次优化步骤,然后将精心构造的中间数值返回给各站点。各站点仅使用这些共享量,就能重建其自身变量的精确回归结果——而无需看到其他站点的原始记录或完整的结局列表。

与将所有数据集中在一起一样准确

当我们用一种保护隐私的方案替代标准分析时,一个关键担忧是:我们会失去准确性吗?作者表明,VALORIS 可以进行调节,使其结果在实际意义上与传统汇总分析的结果一致。他们通过求解稍作修改的逻辑回归问题来实现这一点,该问题包含很小的罚项。理论推导与数值实验表明,当这些罚项足够小时,得到的估计值及其误差界限与集中式黄金标准解几乎无法区分,同时仍可从分割数据中计算得到。

Figure 2
Figure 2.

在肾病与重症监护的真实世界测试

为验证方法在理论之外的效果,团队将 VALORIS 应用于两项真实健康研究。第一项关注在巴黎 Necker-Enfants Malades 医院治疗的慢性肾病儿童。此处,一个节点保存了基本特征和两年内肾衰竭的结局,另一个节点保存血液检测结果。VALORIS 产生的各因素与肾衰竭关系的估计值,与标准的合并数据分析相比,平均差异小于万分之一。第二项测试使用规模更大的数据集 MIMIC-IV 重症监护数据库,划分为代表急诊、病房和重症监护信息的三个节点。同样,即便有一万多名患者和许多变量,VALORIS 仍几乎精确重现了集中式结果。

将隐私内置而不仅仅是承诺

许多所谓的“隐私保护”方法仅仅避免发送原始记录,但仍可能泄露足够的信息,使得有心的合作方重建个体数据。因此,作者提出了更强的要求:在所有消息交换完成后,任何一方都不应能够从其所见信息中唯一地恢复任何人的数据。他们逐步分析 VALORIS 中每个站点接收的内容,并证明在现实条件下——例如在任何潜在攻击者之外的某个站点至少存在一个连续数值变量——总存在多种不同的潜在底层数据集可以产生相同的共享数值。他们还提供了一个基于优化的实用检查,响应节点可以在发送任何内容之前运行该检查,以确认在给定项目中满足这种更强的保护水平。

这对未来健康研究意味着什么

简而言之,VALORIS 展示了医院和研究网络并非总要在强隐私与高质量结果之间做出选择。对于逻辑回归,它们可以将详尽记录留在各自防火墙内,仅在一次通信轮次中交换有限汇总,并仍能恢复出与传统汇总分析实质相同的结果。这降低了临床合作伙伴参与的门槛,减少了围绕数据共享的批准障碍,并为结合临床、化验和其他数据源的大规模研究打开了大门。作者指出,类似理念可能扩展到其他模型与存在缺失数据的情形,帮助未来健康研究在尊重病人隐私的同时,仍获得协作带来的统计效能。

引用: Camirand Lemyre, F., Domingue, MP., Morissette, JP. et al. VALORIS: One-shot and lossless vertical logistic regression for privacy-protecting multi-site health analytics. Sci Rep 16, 12558 (2026). https://doi.org/10.1038/s41598-026-41936-y

关键词: 隐私保护的健康分析, 分布式逻辑回归, 多中心医疗数据, 联邦统计建模, 电子健康记录