Clear Sky Science · zh

部分共享的多模态嵌入学习细胞状态的整体表征

· 返回目录

本研究为何重要

我们体内的每个细胞都是一个微小的宇宙,现代技术现在可以从多个角度同时观测这个宇宙——读取基因、绘制 DNA 包装方式或成像蛋白质。然而,大多数计算方法将这些视角混合在一起,难以分辨哪个测量带来了哪种见解。本文提出了 APOLLO,这是一种新的多样本数据整合方法,它在保留测量间共享信息的同时,也区分每种测量的独有信息,从而提供更清晰、更整体的细胞行为图景。

通过多重视角观察细胞

当今生物学常常从同一细胞中测量多种信息:哪些基因被激活、DNA 的紧密程度、哪些蛋白出现在细胞表面或特定蛋白在细胞内的位置。每种“模态”只捕捉细胞状态的一部分。有些方面,例如广义的细胞类型,可能出现在所有模态中,而另一些——比如精细的 DNA 包装特征或某一蛋白的位置——可能只出现在某一种模态中。现有的计算方法要么分别分析每种模态,要么将它们融合成单一的混合表示。在这两种情况下,研究者都难以判断哪些特征来自哪种测量,也难以预测缺失的测量本会显示什么。

Figure 1
Figure 1.

共享与特有信号的新型映射

APOLLO 通过为每个细胞学习一个结构化的内部映射来解决这个问题。它不是给出一个未加区分的总体摘要,而是将信息划分为三部分:反映不同测量共同信息的共享成分,以及捕捉每种数据类型独有信息的两个模态特异成分。在内部,APOLLO 使用一类称为自编码器的神经网络。在第一阶段训练中,它将每个细胞的内部表示视为一组可调参数,并与解码器网络一同调整这些参数,以便准确重建每种模态。在第二阶段,它训练编码器网络,使之能够从新数据推断出相同的内部表示,从而使该方法可以推广到未见过的细胞并执行跨模态预测。

在模拟和真实数据上测试方法

作者首先在精心设计的模拟数据集上基准测试 APOLLO,在这些数据集中真实的潜在结构已知。在多种情形下,包括共享与模态特异因子在统计上相互缠绕的情况,APOLLO 都能将它们成功地分离到预期的成分中。随后他们将该方法应用于小鼠皮肤的配对基因表达与染色质可及性数据、免疫细胞中配对的基因表达与表面蛋白水平数据,以及高重度多重化的细胞图像。在这些真实数据集中,共享空间捕捉到核心生物学主题,例如定义细胞类型的关键调控因子,而模态特异空间则凸显额外层面,如细胞周期状态或仅在某一测量中出现的批次效应。

预测缺失图像并揭示细胞结构

一个显著的应用来自对癌症患者免疫细胞的成像。在这些数据中,每个细胞都有 DNA 染色和一项或多项蛋白质染色,但并非每种蛋白在每个细胞中都被测量。APOLLO 学会了染色质组织模式如何与蛋白质定位相关联,然后仅基于染色质图像预测在给定细胞中未测量蛋白的样子。这些预测的蛋白质图像足够逼真,以至于另一个训练用于区分患者诊断的分类器在其上表现几乎与在真实图像上一样好。在另一个大型成像资源——人类蛋白图谱中,APOLLO 解开了细胞核形态、微管网络和内质网如何与蛋白在细胞内的定位相关联的关系。对于某些蛋白,核纹理的变异最具信息量;对于另一些,周围细胞支架的特征更为关键。

Figure 2
Figure 2.

更清晰的细胞身份图景

对非专业读者而言,关键结论是 APOLLO 允许研究者将对同一细胞的多种测量组合起来,而不会丢失哪个测量解释了哪些信息。通过显式地将共享信息与模态特异信息分离,该方法既能预测缺失数据——例如未测量的蛋白图像——又能突出到底是哪个细胞区室或数据类型真正与某一表型(如疾病状态或蛋白重新定位)相关。能够为每个细胞形成结构化、可解释的摘要,为更精确的诊断和更深入的机制理解打下基础,帮助揭示不同生物层如何协同工作。

引用: Zhang, X., Shivashankar, G.V. & Uhler, C. Partially shared multi-modal embedding learns holistic representation of cell state. Nat Comput Sci 6, 285–300 (2026). https://doi.org/10.1038/s43588-025-00948-w

关键词: 单细胞多组学, 表示学习, 细胞状态, 蛋白质定位, 染色质成像