Clear Sky Science · zh
NuConf:用于 DNA 和 RNA 的转子库及其在蛋白质设计软件 MUMBO 中的实现
为什么在计算机上重塑 DNA 与 RNA 很重要
近年来,借助计算工具设计新蛋白质取得了显著进展,但 DNA 与 RNA 在很大程度上被落在了后面。这些遗传分子的结构记录相对稀疏,导致人工智能难以学习它们如何弯曲、扭转并与蛋白质相互作用。本研究提出了 NuConf,一种表示 DNA 与 RNA 构件形状的新方法,使现有的蛋白质设计软件也能设计核酸及其与蛋白质的接触界面。 
设计者通常如何处理灵活的侧部件
当科学家在计算机上设计蛋白质时,他们不会逐个原子地穷尽每一条侧链的所有可能摆动。相反,会使用“转子库”——从成千上万已知结构中提取出的常见侧链构型集合。像 MUMBO 这样的程序将这些构型置于固定的蛋白骨架上,并用能量计算来决定哪种组合最合适。直到现在,针对 DNA 与 RNA 碱基侧部的、可与蛋白质并列处理的实用转子库仍然缺失。
绘制 DNA 与 RNA 的偏好形状图谱
作者首先检查了来自高质量晶体结构的 175,000 多个核苷酸,这些结构涵盖了 DNA、RNA 及其与蛋白质的复合体。对于每个核苷酸,他们测量了两个关键角度:一个描述骨架中糖环的翘曲形态,另一个描述碱基相对于该糖的旋转方向。他们发现糖环偏好两类宽泛的构型,一类更典型于 DNA,另一类更典型于 RNA,并且这些糖环构型与碱基的取向密切相关。换言之,骨架姿态与碱基方向并非独立;它们以特征性的方式协同变化。
将结构模式转化为实用的库
为使这些模式能被设计程序利用,团队采用统计模型将复杂的角度分布分解为少数离散峰值,每个峰值代表一种常见的碱基取向。对于 DNA 与 RNA 中的每种碱基类型,以及每种宽泛的糖形态,他们为每一类定义了三到六种优选取向,并记录了各自的出现频率。这个集合称为 NuConf,充当与局部骨架姿态相连的核苷“形状目录”。他们还创建了一个更精简的备选版本,包含更少的形状,以牺牲部分细节换取更低的计算成本。 
检验新形状是否真正有效
研究人员随后将这些形状整合进 MUMBO,并提出两个问题:在给定固定骨架的情况下,程序能否重建真实结构中观察到的碱基位置;以及程序能否仅凭能量评分(而不被告知答案)选出良好的形状与序列。在包含数万核苷酸的大型测试集中,NuConf 库在重现碱基位置方面达到了与常用于蛋白侧链的标准库相当甚至有时更好的准确度。当程序必须纯粹基于能量选择构型时,NuConf 仍优于更简单的库和其他竞争的核酸工具,并且在游离核酸与蛋白–核酸复合体中都能捕捉到关键的碱基配对与堆叠相互作用。
这对未来分子设计意味着什么
对非专业读者来说,主要结论是作者为计算辅助设计同时处理蛋白质与核酸提供了一种新的共享语言。NuConf 使现有的蛋白质设计软件能够可靠地在给定骨架和蛋白接触位点上放置并选择 DNA 与 RNA 碱基。这并不取代现代的 AI 方法,但在训练数据稀缺或需要评估细粒度物理相互作用时填补了重要空白。从长远看,这类工具可助力研究者在实验室构建之前,完全在计算机中设计出更精确的基因调控器、RNA 开关以及蛋白–核酸混合装置。
引用: Makarova, M.O., Stiebritz, M.T., Basturk, D. et al. NuConf: a rotamer library for DNA and RNA and its implementation in the protein design software MUMBO. Sci Rep 16, 16281 (2026). https://doi.org/10.1038/s41598-026-52380-3
关键词: 核酸设计, 转子库, 蛋白–DNA 相互作用, RNA 建模, 计算结构生物学