Clear Sky Science · zh

通过全面且可解释的单细胞基础模型阐明细胞状态

2026-03-16 · 返回目录

为什么更智能的细胞地图很重要

你体内的每种组织都是一个繁忙的细胞城市，每个细胞都有自己的职责和生命轨迹。现代工具可以读取数以千计基因在数百万个单细胞中的活性，但这些海量数据往往杂乱、缺失且难以解读。本文介绍了 CellVQ，一种旨在将这些纠结的测量转化为清晰、可被人类理解的细胞类型、细胞状态及其对药物和基因改变反应的人工智能新模型。

Figure 1. AI 模型将凌乱的单细胞测量转化为清晰、可比的细胞类型和状态地图。

一种读取单细胞的新方法

作者从一个简单想法出发：要理解健康和疾病，我们需要一种可靠的“语言”来描述每个细胞所处的状态。现有基于单细胞数据训练的 AI 模型虽很强大，但在三类现实问题上表现不足。其一，大多数测量极为稀疏，许多基因看似沉默。其二，不同实验室和技术产生的数据尺度不一，使得比较结果变得困难。其三，这些模型的内部机制通常不透明，限制了其对需要明确解释而不仅仅是预测的生物学家的实用性。

将细胞活动转换为可重用的细胞编码

CellVQ 通过在 6800 万个细胞上训练的大型模型来解决这些问题，学习每个细胞的紧凑“细胞编码”。CellVQ 不再将每个细胞表示为一长串原始数值，而是将基因活性模式输入编码器和一个特殊的单细胞离散化模块。该模块将相似的模式分组为共享编码，使来自不同实验但行为相似的细胞获得相关的编码。与此同时，解码器学习使用针对大量零值数据设计的统计模型来重建缺失的基因活性。这种训练策略帮助系统应对稀疏测量，同时捕捉基因间的有意义关系。

从原始数据到有用的预测

训练完成后，CellVQ 可在无需额外微调的情况下应用于多种任务。与其他方法相比，该模型能更清晰地区分细胞类型，产生更明确的簇并更准确地自动标注细胞身份。它还比早期方法更好地预测实际属性，如组织来源、年龄、性别和疾病状态。值得注意的是，相同的表征在对将许多细胞平均的整体样本（bulk）上也能表现良好，从而提升了预测癌细胞对不同药物反应以及患者或细胞系对特定治疗敏感性的能力。

Figure 2. 基于图的视图展示细胞如何分裂为不同状态以及哪些基因逐步驱动每一次变化。

揭示基因和药物如何重塑细胞

研究进一步检验了 CellVQ 在基因或药物受扰动时是否能捕捉因果关系。利用那些单个基因被关闭或组合被改变的数据集，CellVQ 有助于预测其余基因组在单细胞分辨率下的反应，常常能匹配或超越专门模型。对于药物暴露，作者将 CellVQ 的基因表征与单独读取药物结构的模型结合，这些系统共同准确预测在特定化合物处理下免疫细胞的基因活性如何改变。该方法可以指出变化最显著的基因，为药物作用机制和副作用提供线索。

构建细胞状态的知识图谱

为使模型的内部逻辑可访问，作者引入了 CellVQ-Graph，这是一个轻量级附加组件，利用 CellVQ 的输出构建连接细胞、基因和诸如组织、疾病标签、年龄和性别等描述性属性的图。在该图中，注意力权重突出显示哪些基因和特征对每种细胞状态最为重要。应用于脑和胰腺数据时，该系统能区分细微的细胞亚型，提出中间状态，并指出已知的标记基因以及较少研究的候选基因。它还推断出倾向于共同变化的基因网络，揭示控制发育、应激反应和炎症的调控回路。

这对未来细胞研究意味着什么

通俗地说，CellVQ 和 CellVQ-Graph 就像一个强大的翻译与制图引擎，将嘈杂的测量转化为可在研究和疾病之间比较的共享编码。该工作表明，一个模型既能改进预测任务，又能提供明确的生物学线索，从关键标记基因到可能的基因-基因协作。尽管当前版本主要在一种分子读数类型上训练，作者计划将其扩展到更多数据类型，目标是构建一个统一且可解释的细胞变化图谱，覆盖不同组织、随时间变化及治疗下的细胞状态演变。

引用: Wang, J., Tan, C., Gao, Z. et al. Illuminating cell states by a comprehensive and interpretable single cell foundation model. Nat Commun 17, 4037 (2026). https://doi.org/10.1038/s41467-026-70071-5

关键词: 单细胞 RNA 测序, 细胞状态, 基础模型, 基因调控, 药物反应