Clear Sky Science · zh
可解释、灵活且具空间感知的来自多源多组学空间转录组数据的整合方法
把组织看作活的地图
生物学家如今有工具可以读取成千上万个微小位置上哪些基因处于活跃状态,从而把器官、肿瘤和胚胎切片转化为精细的分子地图。然而每次实验使用的仪器和设置各异,导致生成的图谱难以比较或合并。本文介绍了 INSPIRE,一种计算方法,它将这些多样的基因图拼接为一幅单一且易于理解的视图,帮助科学家追踪组织如何构建、如何随疾病改变以及如何在时间中演化。

为什么许多基因图难以合并
现代空间转录组技术在保留细胞在组织中位置信息的同时测量基因活性。有些方法几乎捕获所有基因,但每个采样点会将多个细胞混在一起;另一些方法可以定位单个细胞,但仅针对选定的基因面板。这些图谱还来自不同实验室、仪器、时间点和物种。因此,每个数据集都带有自身的技术特性和噪声。现有分析工具能描述单个切片或少量相似切片,但在需要对齐数十个截面、跨越多种技术或同时保留共有与特有组织特征时,它们常常力不从心。
用于统一组织图谱的新框架
INSPIRE 通过一个尊重基因读数与细胞物理布局的深度学习框架来解决该整合问题。它首先为每个组织切片构建“邻域图”,连接彼此相近的位置点。基于图的神经网络随后将原始数据转换为共享的内部表示,将不同切片中可比的细胞混合在一起,同时仍允许切片特有的模式保留。一个对抗成分充当批评者,识别在该内部空间中尚未很好重叠的切片,并促使模型改进对齐。
从隐藏模式到可读特征
一旦数据被带入共享空间,INSPIRE 会把剩余信号分解为一组反复出现的空间模式,称为因子,每个因子对应一个特征性的基因程序。这一步使用非负矩阵分解,鼓励模型将数据表示为少数简单构建模块的组合。每个因子对应跨切片的空间模式,例如特定的大脑层、肿瘤微环境或发育中器官的区域。由于 INSPIRE 还学习哪些基因与每个因子最相关,研究者可以用已知的细胞类型和生物学过程来解释这些模式,而不是停留在抽象的数值上。

INSPIRE 在真实数据集中揭示的内容
作者显示,INSPIRE 在模拟和真实数据集上优于多种流行方法。在人类大脑皮层切片中,它能够对不同供体的层次进行对齐,并恢复神经元类型与支持细胞之间的细微差异,包括人工标注错过的微小排列。在小鼠大脑中,它清晰地区分了诸如皮层等共享结构与小脑等特有区域,同时正确识别它们各自的基因特征。INSPIRE 还能跨越不同技术,将单细胞图谱与更广泛的调查相结合,以传递详细的层信息并推断那些从未直接测量到的缺失基因模式。
追踪疾病、发育与三维结构
超出健康组织的范畴,INSPIRE 揭示了疾病和发育中的隐藏变异。在包含数十万细胞的人类乳腺癌切片中,它能区分非侵袭性与侵袭性肿瘤区域,并发现围绕各区域的支持细胞的不同亚群,这些亚群与已知的侵袭性和血管生成标志相关。在小鼠胚胎中,INSPIRE 整合了多个发育阶段的切片来构建时空图谱,追踪心脏、肝、肺和大脑等器官如何生长与重组。通过准确对齐相邻切片,它还支持器官与整个胚胎的三维重构,将一堆二维图像堆叠成连贯的三维基因表达模型。
这对未来组织研究的意义
对非专业人士而言,INSPIRE 可被视为一种强大的“翻译器”,将多张有缺陷且噪声较多的基因图转化为一套共享的空间模式和基因程序语言。它保持细胞在组织中的语境,滤除技术伪影,并突出实验间的共性与差异。随着空间转录组项目扩展到整个器官、肿瘤与整个生物体,诸如 INSPIRE 的方法将成为构建可供研究者探索的整合图谱的关键,帮助理解细胞如何协作、疾病如何破坏组织构造以及复杂结构如何在发育中出现。
引用: Zhao, J., Zhang, X., Wang, G. et al. Interpretable, flexible and spatially aware integration of multiple spatial transcriptomics datasets from diverse sources. Nat Genet 58, 1138–1150 (2026). https://doi.org/10.1038/s41588-026-02579-x
关键词: 空间转录组学, 组织构造, 基因表达图谱, 数据整合, 肿瘤微环境