Clear Sky Science · zh
低复杂度重复序列在RNA–RNA相互作用中的作用以及用于双链预测的深度学习框架
塑造细胞行为的“粘性”RNA序列
在每个细胞内,RNA分子不断相互碰撞,形成瞬时的结合,这些结合有助于控制哪些基因被激活、如何合成蛋白质以及细胞如何发育。本研究表明,许多RNA–RNA相遇并非随机:它们由短小、简单且高度重复的序列引导,像分子级的魔术贴一样。研究者还构建了一个人工智能工具,能够识别这样的RNA配对可能发生的位置,从而为探索细胞在健康与疾病状态下的工作机制开启新途径。
简单重复却效应强大
人们常将RNA描述为从DNA向蛋白质传递遗传信息的信使,但RNA也可作为支架、调节子和向导。许多此类功能依赖于两条RNA链相互结合。通过整合来自人类和小鼠细胞的多项大型实验数据,作者表明实际参与配对的RNA区域明显富集他们所称的低复杂度重复序列。这些序列由短的基序(例如一串G或C碱基)反复重复构成。与其被视为基因组中的“垃圾”,这些重复片段实际上是RNA能够与许多其他RNA相连的主要停靠位点,在转录组中形成密集的相互作用枢纽。 
发育与调控的RNA枢纽
当团队检查哪些基因携带这些富含重复的接触位点时,出现了一个显著模式:许多基因编码控制发育与细胞身份的蛋白质,例如转录因子。即便在不活跃分化的癌细胞系中,与发育程序相关的RNA也大量参与基于重复的接触。作者还聚焦于特定的长非编码RNA(lncRNA),这些RNA不编码蛋白但常常参与调控。例如,lncRNA TINCR的靶点以及对运动神经元形成重要的lncRNA Lhx1os的靶点,都显示出互补重复的过度富集。在这些情况下,lncRNA上的简单重复与其伙伴RNA中的互补重复相配对,使得稳定的配对成为可能,从而有助于微调关键发育基因的表达或翻译水平。
蛋白质与编辑酶的参与
这些由重复驱动的RNA接触很少独自作用。作者将蛋白质结合位图叠加到相互作用数据上,发现许多携带重复的接触位点也被参与翻译调控、RNA降解以及细胞质颗粒(如P体和应激颗粒)形成的RNA结合蛋白识别。其中一个蛋白STAU1尤其显著,它可触发其RNA靶标的降解,常与通过低复杂度重复形成的双链结合。敲低STAU1导致参与这些双链的RNA水平升高,尤其是那些携带重复的RNA,表明重复介导的RNA配对可以将转录本标记为受控降解的对象。同样富含重复的区域也吸引诸如ADAR1等RNA编辑酶,这些酶在双链RNA内化学修饰特定碱基,暗示低复杂度重复有助于定位细化RNA行为的编辑位点。
教神经网络识读RNA接触
传统计算程序主要基于热力学稳定性来预测RNA–RNA结合——即形成或断开双链需要多少能量。虽然有用,但这些模型常常错过细胞中观察到的真实相互作用,尤其是在长RNA之间。为超越简单的能量规则,作者训练了一个名为RIME的深度学习模型,该模型使用“语言模型”风格的嵌入:对RNA序列的数值表示,编码了从大量核酸数据中学习到的模式。RIME被展示成对的RNA片段并学习分类它们是否相互作用,使用来自光敏剂交联实验(psoralen-based crosslinking)的许多真实配对作为正例,并用精心构造的不相互作用对作为负例。 
更智能的预测与新的生物学线索
在与领先的基于热力学的工具和另一种神经网络方法的基准比较中,RIME在区分真实RNA–RNA接触与诱饵配对方面始终表现更好,尤其是在高置信度的实验相互作用上。它不仅预测两条RNA是否会配对,而且往往能指示出确切参与的区域,并自然而然地学会低复杂度重复是强烈的接触预测因子。值得注意的是,同一模型仅在不同RNA之间的相互作用上训练,也能很好地预测单个RNA分子的内部碱基配对,这与结构实验和经典折叠算法一致。对于像TINCR、NORAD和SMaRT这样的非编码调节子,RIME成功重新发现已知的功能性相互作用位点并提出额外的候选区域。
这为何重要
对非专业读者而言,核心信息是:RNA中那些曾被轻易忽视为无用噪声的短重复片段,实际上是细胞RNA连接网络中的中心节点。它们促使RNA相互靠拢,吸引调控蛋白和编辑酶,并在控制细胞发育与应对压力的通路中被广泛利用。新的RIME模型为研究者提供了一种强大的手段,扫描基因组以寻找这些RNA–RNA伙伴关系,包括在与重复扩增相关的神经疾病和其他疾病中可能出错的那些。归根结底,这项工作表明,理解并预测简单RNA重复如何相互“粘连”可以揭示隐藏的基因调控层面。
引用: Setti, A., Bini, G., Pellegrini, F. et al. The role of low-complexity repeats in RNA–RNA interactions and a deep learning framework for duplex prediction. Nat Commun 17, 1637 (2026). https://doi.org/10.1038/s41467-026-68356-w
关键词: RNA–RNA相互作用, 低复杂度重复序列, 长非编码RNA, 深度学习, 基因调控