Clear Sky Science · zh
用于单细胞染色质可及性基准测试和连续建模的 iAODE
追踪单个细胞的生命轨迹
我们的身体由数万亿个细胞组成,这些细胞在成长、愈合和衰老过程中不断变化。现代单细胞测序技术可以将这些细胞的状态“定格”,读取其 DNA 中哪些区域是暴露且活跃的。但这些快照数据噪声大且不完整,很难直接观察细胞在成熟或命运转换过程中所经历的连续性旅程。本文提出了一种新的计算框架,称为 iAODE,它能把这些离散快照重建成平滑的“电影”式细胞变化轨迹,并提供一种严格的方法来评估不同方法在恢复此类细胞故事线方面的表现。
为何染色质开放性至关重要
基因的开启与关闭不仅取决于其序列,还受周围 DNA 是否开放可及的影响。一种称为单细胞 ATAC-seq 的技术可以逐个细胞测量这些开放区域。然而,得到的数据极为稀疏:大多数位置看起来像零,这既可能是真正的闭合,也可能是测不到导致的。现有工具通常先将这些数据压缩到低维空间,再在后续步骤通过伪时间对细胞排序以重建发育路径。这种分离意味着模型并未明确训练以遵循平滑的时间变化,也不清楚哪类内部表征最适合恢复真实的生物轨迹。

学习连续细胞旅程的新途径
iAODE 通过将连续性直接内建到模型核心中重新构想了这条流程。它以一种流行的深度学习框架(变分自编码器)为起点,学习捕捉数据中关键模式的紧凑“潜在”空间。在此基础上,作者加入了神经常微分方程(Neural ODE),将每个细胞在潜在空间中的位置视为沿时间变化的光滑路径上的一点。编码器不仅压缩数据,还预测每个细胞的相对时间,而 ODE 组件则学习潜在状态如何从早期流向晚期。两个额外的设计选择——削弱一种强制潜在维度独立行为的标准惩罚,以及加入压缩的重构瓶颈——促使特征组以生物学上有意义的模块协同变化,并有助于滤除噪声。
构建公平的比较平台
为了评估 iAODE 及其设计选择,作者组装了该领域最大的标准化基准集合之一:248 个单细胞染色质可及性数据集和 123 个单细胞 RNA 数据集,覆盖多种物种、技术和规模。他们还设计了一套 20 项指标,分别衡量三方面:潜在轨迹的连续性与形状、投影用于可视化时结构的保真度,以及聚类与调控耦合性的捕获程度。通过先在已知轨迹的精心模拟数据上测试这些指标,他们证明这些评分在连续性增强或减弱时会平滑且可预测地变化——这是将指标应用到真实生物数据前的重要合理性检验。
基准测试揭示了什么
借助这个平台,团队系统性地拆解了 iAODE。对各组件的开关测试表明,ODE 部分主要提供全球性的骨架和明确的变化方向,而低惩罚正则化和瓶颈则锐化了几何结构并提高了模型对噪声的鲁棒性。在数百个染色质数据集上,完整的 iAODE 模型始终产生比已建立的深度生成方法(如 scVI、PeakVI 及早期基于 ODE 的工具)以及传统技术(如主成分分析和扩散映射)更平滑、更稳健的轨迹。当将框架应用于单细胞 RNA 数据时也呈现相同模式,表明其核心思想能推广到染色质以外。来自大脑和血液细胞数据集的可视化示例显示,iAODE 的潜在坐标与已知标记基因和调控区域一致,且一组潜在特征富集于预期的生物过程,说明所学轨迹不仅平滑而且可解释。

这对理解细胞命运的重要性
本质上,这项工作主张将细胞发育中的连续性视为一种设计原则,而非事后的补充。通过在表征步骤中编织平滑的动力学模型,并谨慎放松会破坏协同信号的约束,iAODE 构建出使细胞状态形成流动路径而非割裂簇群的潜在空间。随附的基准数据集和指标为社区提供了比较旨在重建此类路径的方法的共同尺子。对研究者而言,这意味着更可靠的细胞发育、免疫响应或疾病进程图谱,以及更清晰的方式将这些路径与编码在基因组中的调控程序相连接。
引用: Fu, Z., Chen, C., Wang, S. et al. iAODE for benchmarking and continuum modeling of single-cell chromatin accessibility. Commun Biol 9, 507 (2026). https://doi.org/10.1038/s42003-026-09768-8
关键词: 单细胞基因组学, 染色质可及性, 细胞轨迹建模, 深度生成模型, 神经常微分方程