Clear Sky Science · zh
DECODE:基于深度学习的通用组学去卷积框架
这项研究为何重要
现代生物医学充斥着对组织的各种测量:哪些基因在活跃、存在哪些蛋白质、哪些小分子为细胞提供能量。然而,这些测量大多来自混合样本,其中多种细胞类型混在一起。关于 DECODE 的研究提出了一个强大的人工智能框架,能够将这些混合信号分离出来,告诉我们存在哪些细胞及其状态,即便跨越非常不同的数据类型。此能力可加速对癌症、免疫和代谢性疾病的研究,并更好地利用现有生物样本库的样本。

窥探混合组织内部
每个器官都是不同细胞类型的群落——免疫细胞、结构细胞、干细胞等。在健康与疾病中,变化往往不仅是单个细胞的功能改变,还包括各种细胞的相对数量和它们所处的状态。单细胞技术可以直接测量单个细胞,但成本高且技术要求高,尤其对于大规模患者队列或长期保存的样本。相比之下,传统的“总体(bulk)”实验将成千上万个细胞混合在一起,读取的是平均信号。去卷积算法试图逆转这种混合:给定总体数据和单细胞参考图谱,估计组织中各细胞类型的比例。
单一工具的局限
现有去卷积工具大多针对单一测量类型(如转录组学的基因表达或蛋白质组学的蛋白)进行优化。它们常常假设某些特定的统计行为,而这些假设在其它数据类型上并不成立;当总体组织包含参考数据中缺失的细胞类型时,这些工具也会力不从心。强烈的批次效应——供体、仪器或健康状态的差异——会进一步模糊生物学信号。尤其是,对于代谢组学(研究与临床症状最接近的小分子)以前没有实用的方法。因此,分析多组学队列的科学家不得不使用多个专门工具,每个工具都有各自的奇特之处,导致跨研究和跨数据类型比较结果变得困难。
通用的去混合引擎
DECODE 通过将去卷积视为一个灵活的深度学习问题来应对这些挑战,从而以统一方式处理基因、蛋白和代谢物。首先,它通过以随机比例数字混合单细胞谱系来合成“伪组织”,创建一个已知真实细胞组成的丰富训练集。接着,使用对抗性学习阶段训练一个编码器,将真实组织与伪组织映射到一个共享表示空间,在该空间中技术性差异被最小化而生物学有意义的模式得以保留。随后,一个由对比学习引导的特殊去噪模块学会将真实组织信号与人为噪声分离。这一步使 DECODE 对参考数据中缺失的细胞类型和测量误差具有鲁棒性。最后,清洗过的特征传递到去卷积模块,根据参考的完整程度估计细胞类型和细胞状态的绝对或相对丰度。

将 DECODE 付诸测试
作者在 15 个数据集上以七种现实场景进行了严格基准测试,涵盖不同供体、疾病状态、健康情况、实验平台,甚至空间分辨测量。跨转录组学和蛋白质组学,DECODE 在准确性上通常匹配或超过了最先进工具,同时保持了合理的计算时间和内存使用。关键是,DECODE 是唯一能在代谢组学数据上提供可靠结果的方法——在代谢组学中特征更少且不同细胞类型可能看起来非常相似。该框架还擅长追踪细胞状态,例如沿发育轨迹的进展、细胞周期阶段或对药物处理的反应,而不仅仅是静态的细胞类型。
在嘈杂且不完整的真实数据中依然稳健
真实组织中常包含实验室单细胞参考未捕获的细胞类型,且实验噪声可能同时扭曲多种特征。研究者通过加入未知细胞类型并在转录组学、蛋白质组学和代谢组学中引入多种噪声与缺失数据来模拟这些问题。在大多数设置中,DECODE 仍然是最准确的方法,且在代谢组学中是唯一未崩溃的方法。他们还展示了,当将 DECODE 应用于来自相同血细胞样本的匹配基因和蛋白测量时,其结果高度一致——这是在大型队列中跨组学层比较细胞类型变化的关键要求。
从多组学队列获得的新生物学见解
借助这一统一工具,团队重新审视了复杂疾病的数据集。在乳腺癌中,他们结合转录组和蛋白质组队列,展示了免疫细胞和支持性间质细胞如何在非转移性肿瘤、发生转移的原发肿瘤和脑转移之间发生变化。诸如非转移病灶中 T 细胞和围血管样细胞更丰富、晚期病程中 B 细胞增加等模式,与以往生物学研究一致并有所扩展。在小鼠肝脏模型中,DECODE 整合了转录组、蛋白组和代谢组队列,追踪肝细胞、内皮细胞和常驻免疫细胞在不同饮食和肝病模型下的变化,重现了如炎症条件下库普弗细胞比例上升等已知趋势。
未来的意义
对非专业读者而言,主要信息是:DECODE 像一个智能棱镜,能从组织的混合测量中分离出多种细胞类型和细胞状态的贡献,并能在多种分子读数间可靠工作。这使得科学家在不为每个项目重新采集单细胞数据的情况下,能从现有多组学队列和生物样本库中挤出更多信息。尽管该方法仍依赖于可用单细胞参考的质量与覆盖范围,且代谢组学资源仍然有限,DECODE 标志着朝着常规化、大规模人类研究的细胞水平解读迈出的重要一步,具有增进疾病机制理解和指导精准医学的潜力。
引用: Zhao, T., Liu, R., Sun, Y. et al. DECODE: deep learning-based common deconvolution framework for various omics data. Nat Methods 23, 596–608 (2026). https://doi.org/10.1038/s41592-026-03007-y
关键词: 多组学去卷积, 单细胞参考, 生物学中的深度学习, 代谢组学分析, 细胞类型组成