Clear Sky Science · zh

基于注意力增强的反卷积实现空间转录组学中无参考的细胞类型估计

· 返回目录

在原位看见细胞

现代生物学能够同时读取数千个基因的活动,不仅限于孤立的细胞,而是直接在组织切片中进行。这种“空间转录组学”视角揭示了不同细胞的分布与相互作用位置,但每个测量点通常混合了许多相邻细胞的信号。该研究提出了一种新的计算方法,称为 AGED,能够解开这些混合信号并估计各处存在的细胞类型——而无需单独的、严格匹配的单细胞参考数据集。

Figure 1
Figure 1.

为何在组织中定位细胞很难

空间转录组学平台在组织切片上铺设一个点阵来测量基因表达。由于大多数点同时捕获了多个细胞,研究者必须用数学方法将混合信号分解以恢复潜在的细胞类型及其比例。现有工具常依赖于外部的、同种组织的单细胞参考图谱。这类图谱在罕见组织、特殊疾病状态或非典型实验条件下可能缺失,即便存在也可能不完全匹配,从而引入偏差。无参考方法避免了这种依赖,但当前方法在处理复杂的空间模式、细微的基因关系以及首先需要确定多少种不同细胞类型等问题时仍然存在困难。

解混的两步策略

作者将 AGED 设计为一个结合统计学与现代深度学习思想的两阶段框架。在第一阶段,该方法测试一系列可能的细胞类型数目。它使用一种快速的基于注意力的神经网络(称为 Performer)来学习候选分解,然后用多种标准对这些候选结果进行评分:模型重建观测到的基因计数的程度、推断出的细胞群体彼此分离的清晰度,以及这些群体的多样性。曲线拟合程序找到一个“肘点”,在该点之后增加细胞类型带来的收益很小,从而使方法能够自动选择合适的数量,而不依赖用户的主观猜测。

以引导的注意力捕捉生物学信息

一旦确定了细胞类型数量,AGED 的第二阶段便用更丰富的基于注意力的架构来精炼解。它从一个统计主题模型开始,将每个组织点视为隐藏“主题”的混合——在这里代表细胞类型——并将每种细胞类型视为具有特征性基因模式的成分。这些初始主题提供了全局结构。模型随后在其上叠加多重注意力机制:一类将统计主题与神经网络连接,另一类从物理空间中汇聚邻近点的信息,第三类直接将主题与基因联系起来。一个门控系统允许模型在每个情况下决定多大程度上信任先验的统计模式与局部数据。额外约束鼓励稀疏解,反映了生物学现实——大多数组织位置由少数主要细胞类型主导。

Figure 2
Figure 2.

将方法付诸检验

研究者在多种数据类型上评估了 AGED。在模拟的小鼠嗅球组织中,该方法重建了四个已知的解剖层,并在与地面真相的细胞组成比对中优于广泛使用的有参考和无参考工具,既表现出与真实情况的高相关性,又具有低重建误差。在人类胰腺导管腺癌样本中,AGED 自动选择了一个二十种细胞类型的解,与病理学家标注的肿瘤、导管和正常胰腺等区域一致,在将推断地图与可见组织结构比较的结构相似性度量上优于其他方法。在人类胸腺组织中,AGED 准确分离了关键细胞群,并捕捉到两类特化上皮细胞之间生物学上预期的负相关关系——这是竞争方法未能再现的。对其它数据集及近单细胞分辨率的额外分析进一步支持了该方法的鲁棒性。

对此的前景意义

对非专业读者而言,AGED 可被视为一种智能的组织解混引擎:它从空间数据本身学习存在多少不同的细胞群体、它们位于何处以及哪些基因定义了它们。通过将可解释的统计模型与灵活的基于注意力的神经网络编织在一起,该框架在没有合适参考图谱时仍能提供准确性与洞见。这使其成为探索健康与疾病中组织组织结构(从大脑层次到肿瘤与免疫器官)的实用工具,并指向了一种更广泛的策略,即利用先验知识来引导在生物学中强大但不透明的机器学习模型。

引用: Yang, X., Wang, Y. & Chen, X. Attention-guided enhanced deconvolution enables reference-free cell type estimation in spatial transcriptomics. Sci Rep 16, 8097 (2026). https://doi.org/10.1038/s41598-026-39703-0

关键词: 空间转录组学, 细胞类型反卷积, 深度学习, 组织结构, 无参考分析