Clear Sky Science · zh

SamplingDesign:通过耦合变量与蒙特卡洛抽样的连续优化进行RNA设计

· 返回目录

将RNA设计作为医学新工具

RNA不仅仅是遗传信息的被动信使;它还能折叠成复杂的形状来调控基因、催化反应,甚至作为疫苗的基础。如果科学家能够可靠地设计出按预期折叠的RNA序列,就能为医学构建定制的分子工具,从更智能的疫苗到可编程的基因开关。本文介绍了SamplingDesign,这是一种新的计算方法,通过融汇物理学、统计学和现代机器学习的思想,来应对RNA设计这一艰巨难题。

Figure 1
Figure 1.

为什么设计RNA形状如此困难

设计RNA就像要挑选一串字母,使其在被压扁后恰好形成特定的折纸图形——且几乎没有其他可能性。对于长度为n的链,存在4n种可能序列,因此即便是中等长度也会膨胀成天文数字般的可能性。除此之外,每个序列还可能折叠成大量竞争的替代结构。一个有用的设计不仅要使目标结构成为最低能量构型,还要让竞争结构的概率显著降低,从而在众多可能性中使正确的结构占优。传统的搜索方法通常一次微调一个或少数几个位置,容易在这片选项迷宫中陷入困境,特别是对于长且复杂的RNA。

一次性探索大量可能性的全新方法

SamplingDesign不是从一个候选序列走到下一个,而是考虑一个完整的可能性云。它从覆盖所有与目标结构兼容的序列的概率分布开始——也就是那些配对位置可以形成实际化学碱基对的序列。然后该方法使用基于梯度的优化(机器学习中的主力工具)稳步重塑该分布,使更有可能折叠成目标结构的序列获得更高概率,而性能差的候选序列概率下降。关键在于,作者并不对单个序列优化单一分数;他们优化的是当前分布下所有序列的平均表现,这鼓励在早期进行广泛探索而在后期进行精细调整。

捕捉碱基之间的协同作用

该方法的关键在于以更现实的方式表示RNA各位置如何相互依赖。SamplingDesign不是把每个核苷酸视为独立选择,而是将某些位置捆绑成“耦合变量”。对于每个碱基对,两个配对位置共享一个小型联合概率表,在六种化学允许的配对类型之间分配概率,自动排除无效组合。对于影响彼此能量的邻近位置(例如环周围的不匹配和三不匹配组),也采用类似的耦合。这将设计空间压缩为仅包含有效序列,并使优化更平滑,因为更新直接作用于有意义的碱基对和不匹配选择,而不是孤立的字母。

Figure 2
Figure 2.

让随机性引导更明智的选择

由于无法对庞大的序列和折叠空间计算精确平均值,SamplingDesign依赖蒙特卡洛抽样。在每一步,它从当前分布中抽取可管理数量的序列,使用热力学模型评估每条序列的折叠表现,并利用这些样本估计平均目标(例如目标结构的概率)以及如何调整分布。经过多次迭代,概率质量会向更好的序列移动,分布变得更加尖锐。方法在结束时并不简单地取单个最可能的序列,而是保留所见的所有样本,并根据选定指标挑选出实际表现最好的那一个,从而在广泛探索的同时保持聚焦。

在困难题目上超越现有工具

作者在若干标准的RNA“谜题”集合上测试了SamplingDesign,包括被广泛使用的Eterna100基准,范围从简单发夹到长达400个核苷酸的复杂形状。在几乎所有关注整体结构集合的度量上——尤其是目标结构的玻尔兹曼概率和跟踪核苷酸错误折叠频率的“集合缺陷(ensemble defect)”——SamplingDesign均优于依赖局部搜索或更简单连续方法的最先进设计工具。优势在最长最难的题目上最为显著,那些题目传统算法常陷入低质量解,而SamplingDesign则持续找到使目标结构明显优于竞争结构的序列。

这对未来RNA技术意味着什么

简而言之,这项工作表明,将RNA设计视为对许多序列的有指导探索,而非逐步编辑的游戏,可以产生更干净、更可靠的折叠——尤其针对大型且具挑战性的目标。通过建模碱基如何成对与成组相互作用,并利用抽样来导航原本难以处理的景观,SamplingDesign提供了一个灵活的框架,能够优化不同的设计目标。作者指出,它可以扩展用于定制疫苗或治疗用的信使RNA,并结合实验约束。随着改进的计算设计遇上实验室验证,此类方法有望把抽象的RNA蓝图转化为实用的医学分子工具。

引用: Tang, W.Y., Dai, N., Zhou, T. et al. SamplingDesign: RNA design via continuous optimization with coupled variables and Monte-Carlo sampling. Nat Commun 17, 2950 (2026). https://doi.org/10.1038/s41467-025-67901-3

关键词: RNA设计, 逆折叠, 蒙特卡洛抽样, 连续优化, 信使RNA治疗