Clear Sky Science · zh

使用 CAMEX 对单细胞 RNA 测序数据进行多物种整合、对齐与注释

· 返回目录

这项研究为何重要

每个动物体由丰富多样的细胞类型构成,但我们仍缺乏清晰的图谱来比较不同物种间这些细胞的对应关系或它们在进化中的变化。该研究引入了 CAMEX,一种将来自多种动物的单细胞基因活性数据拼接成共同图景的计算工具。对非专业读者而言,这很令人兴奋,因为它使我们更接近回答诸如哪些细胞类型是真正普遍存在的、哪些是人类特有的,以及脑、肝和睾丸等器官在进化历程中如何形成的问题。

Figure 1
Figure 1.

逐个细胞地观察

现代单细胞 RNA 测序使科学家能够在一次实验中读取成千上万甚至数百万个单个细胞中哪些基因处于活跃状态。通过比较这些模式,研究者可以将细胞分类为不同类型并追踪它们的发育过程。目前已有大量此类数据集,涵盖人类、非人灵长类、鼠类、鱼类、爬行动物等。然而,每项研究通常采用不同的实验技术,且各物种的基因集合存在差异。此外,我们对基因的认识也不均衡:研究深入的实验动物比鲜为人知的物种有更完整的注释。这些差异类似于“批次效应”和不完整的词典,使得跨物种对齐相似细胞、辨别哪些特征是真正共享的还是物种特有的变得困难。

基于图的方法连接物种

CAMEX 通过将所有数据转化为包含细胞与基因的大型网络来应对这些障碍。在该网络中,细胞与它们表达的基因相连,与最相似的邻近细胞相连;跨物种的基因若被判断为具有进化关联,也会相互连接,即便这种关系是多对多而非简单的一对一匹配。一类专门的机器学习模型——异构图神经网络——沿着这些连接传递信息,并在共享的低维空间中为每个细胞与基因学习紧凑的“嵌入”。在数据整合方面,模型被训练以重建网络结构和原始基因活性模式,而无需事先告知细胞类型。在细胞注释方面,相同的编码器还连接到基于注意力的分类器,该分类器可以将参考物种中的已知标签转移到研究较少的物种。

揭示共享的细胞类型与发育过程

作者展示了在面对具有挑战性的真实数据集时,CAMEX 超越了一系列流行工具的表现。在覆盖多达四个物种和多种实验平台的肝脏、卵巢和胰腺数据中,CAMEX 在去除人工批次差异与保持细胞类型间真实生物学差异这两项目标之间取得了最佳平衡。它准确地对齐了常见的细胞群体,如肝细胞与免疫细胞,并且重要的是,保留了其他方法往往会模糊的稀有细胞类型。在一项惊人的测试中,CAMEX 整合了来自 11 个物种(从灵长类到鸭嘴兽和鸡)的睾丸数据。它恢复了生殖细胞成熟为精子的连续路径,并显示在物种间距离变大时使用多对多基因关系对于维持性能至关重要。该模型还成功对齐了跨七个物种的器官发育阶段,将经典的 Carnegie 发育阶段概念扩展到了原先仅为少数模式生物定义的范围之外。

Figure 2
Figure 2.

发现物种特异的细胞与基因模块

由于 CAMEX 为细胞与基因都学习了嵌入,它能够突出显示特异性特征,而不仅仅是共享特征。在包含人类、小鼠、蜥蜴与乌龟的大脑数据集中,CAMEX 整合了这些数据,并在以人类标签为指导时,准确地注释了其他物种的细胞类型,甚至是像乌龟脑部围膜细胞这样的小亚群。将该方法应用于灵长类背外侧前额叶皮层的详尽图谱时,作者能够分离出仅在人类或与黑猩猩共享的特定小胶质细胞亚型。通过对基因嵌入进行聚类,他们还发现了与关键功能相关的基因组:例如在睾丸体细胞支持细胞中活跃的模块,以及与减数分裂(产生精子的细胞分裂过程)相关的模块。这些结果既指出了保守的程序,也揭示了细胞行为中的物种特异性调整。

这对更宏观图景的意义

简而言之,CAMEX 是一种强大的新型“翻译引擎”,用于跨生命树的单细胞数据。它帮助科学家识别来自不同动物的细胞何时在本质上承担相同职能、何时已经分化,以及不同物种的发育时间线如何比较。尽管该方法仍有局限——例如依赖现有的同源性图谱以及解释基于图的模型时存在的一般挑战——但它已能实现比以往更为丰富的进化比较。随着时间推移,像 CAMEX 这样的工具可能有助于构建真正的细胞类型生命树、完善器官发育模型,并指导在人体与动物模型中寻找与疾病相关的细胞类型与药物靶点。

引用: Guo, ZH., Huang, DS. & Zhang, S. Multi-species integration, alignment and annotation of single-cell RNA-seq data with CAMEX. Nat Commun 17, 3017 (2026). https://doi.org/10.1038/s41467-026-69696-3

关键词: 单细胞 RNA 测序, 跨物种整合, 图神经网络, 细胞类型演化, 比较基因组学