Clear Sky Science · zh
SwarmMAP:用于单细胞测序数据中去中心化细胞类型注释的群体学习
这对未来医学有何重要意义
人体的每个器官由多种细胞类型构成,新的测序技术现在可以逐个读取单个细胞的活动。这有望带来对疾病更深入的理解和更精确的治疗方法。但将数百万个原始细胞读数转换为可靠的细胞标签既耗时又带有主观性,而且常常受到患者数据隐私法规的限制。本文介绍了 SwarmMAP,一种允许医院和实验室在不共享原始数据的情况下共同解决此问题的方法,从而为构建大型、可信的细胞图谱打开了通道,同时保护患者隐私。

为细胞命名的挑战
现代单细胞测序可以对来自心脏、肺、乳腺等组织的数百万个细胞的基因活性进行分析。为了理解这些数据,研究者会将相似的细胞分组,然后为每个群组分配诸如“免疫细胞”或“血管细胞”之类的标签。今天这一步大多依赖人工,由专家查看长长的基因列表并讨论哪些标志物定义每种细胞类型。不同团队可能使用不同的规则,导致结果难以比较。除此之外,患者数据十分敏感,因此将所有信息集中在一处通常在法律或伦理上不可行。科学家需要一种方法,能够构建共享的、自动的细胞标注器,同时尊重隐私并能扩展到多种器官和疾病。
用群体而非中央枢纽
SwarmMAP 通过使用“群体学习”来应对这一问题,这是一种协作式的机器学习方式,多个站点在不移动其数据的情况下共同训练模型。每家医院或研究中心将其单细胞数据保留在自己的防火墙后。本地对数据进行清洗、选择有信息量的基因,并训练一个简单的神经网络来预测细胞类型。周期性地,仅将模型的数值参数——而非任何患者数据——发送到基于区块链网络构建的共享“群体”。在那里,来自所有合作方的参数会被平均并重新分发,使每个站点都能受益于其他方的学习成果。该过程重复进行多次,在不将底层患者数据迁出的前提下,稳步改进通用模型。
群体学习效果如何?
作者在来自人类心脏、肺和乳腺组织的近两百万个细胞上测试了 SwarmMAP,每个器官的数据都来自四项独立研究。他们比较了三种情形:在单一研究上训练、在一处合并多项研究数据训练,以及在分布式群体中训练。性能通过模型分配正确细胞类型或更细分类别的准确性来衡量。跨器官来看,群体模型的准确性与在完全合并数据上训练的模型非常接近,平均得分约为 0.9(满分 1)。换言之,缺少中央数据仓库并未显著降低质量。研究还显示,使用更多数据集通常能改进结果并帮助模型应对更广泛的细胞类型。

方法的局限在哪里
这项工作凸显了生物学和机器学习中常见的局限性:罕见和难以定义的细胞类型更难分类。当某些细胞仅以少量出现,或其分子特征与其他细胞高度重叠时,本地模型和群体模型都会出现困难。这在一些特化的免疫细胞以及具有多条谱系特征混合的“缺血性”心肌细胞中尤为明显。分析证实,跨器官来看,常见且特征明确的细胞类型可被高准确率地标注,而罕见或模糊的类别仍然具有挑战性。在这些困难情况下,群体模型有时比本地训练的模型表现略差,反映出数据本身所能支持信息的极限。
这对未来细胞图谱意味着什么
对于非专业读者,关键结论是 SwarmMAP 表明我们可以在不将敏感患者数据集中存放的情况下构建强大的单细胞自动标注器。通过让多个中心在隐私保护的群体中共同训练,科学家可以创建更稳健且可复用的身体细胞图谱。这些模型目前的表现已接近集中式方法,并且随着更多数据和更多器官的加入,可能进一步提升。虽然一些罕见或模糊的细胞类型仍难以精确分类,SwarmMAP 为构建大规模、标准化的细胞图谱提供了实用途径,兼顾科学严格性与患者隐私。
引用: Saldanha, O.L., Goepp, V., Pfeiffer, K. et al. SwarmMAP: swarm learning for decentralized cell type annotation in single cell sequencing data. npj Syst Biol Appl 12, 41 (2026). https://doi.org/10.1038/s41540-026-00667-6
关键词: 单细胞测序, 细胞类型注释, 隐私保护的人工智能, 去中心化学习, 系统生物学