Clear Sky Science · zh
基于信息论的论证:为何当前生物字母表限制为4种核苷酸和20种氨基酸
为何生命的微小字母表重要
地球上的所有生命都用出人意料的小字母表来书写它们的遗传与蛋白“文本”:DNA与RNA仅用四个化学字母,蛋白质则用二十个。化学家能够设想更多的构件,但生物学为何坚持这些受限的集合?本文提出答案藏在这些分子折叠为有用形状的容易程度与进化搜索所有可能序列的效率之中。通过连接物理学与信息论的思想,作者表明生命中熟悉的字母表刚好足够大,使分子能够可靠折叠且仍可被进化有效搜索。
从纠缠的链到有用的形状
蛋白质和RNA起始为柔性的链,在无数可能形状间摆动。能稳定且有功能的形状只占极小一部分。为使生命运转,链必须迅速找到其正确的折叠形式,而不是随机尝试每一种可能。作者以信息论的视角观察:当一条链折叠时,它通过从多种替代形状中选择一种本征形态而“获得信息”。这种增益可以被度量为沿链每一位置上可能形状范围收缩的程度。他们将此与当进化从随机序列筛选出实际能折叠的序列时获得的信息进行比较,表明两者必须平衡,才能使折叠既快速又可靠。

将数字字母与物理运动匹配
关键见解是一条简单的数学联系,连结三者:化学字母表的大小、未折叠链上每个位置能采用的形状数量,以及在真实进化分子中那个位置上实质出现的构件多样性。对于折叠到定义良好的结构的聚合物,理论预测未折叠状态下每个位置可及的形状数与该位置上有效使用的字母多样性,两者都应大致等于总字母表大小的平方根。当作者将真实蛋白质与RNA的测量值代入时,发现未折叠状态下每个位置的平均形状数与每位置的有效字母多样性,与这一预测在两类生物聚合物上都紧密一致。
为何是四个核苷酸与约二十种氨基酸
对RNA而言,关于骨架柔性与碱基配对使用的实验研究表明,每个核苷酸大约有二点五个相关的未折叠形态。将该值平方可得一个非常接近四的字母表大小,恰好与生命所用一致。对蛋白质而言,对主链自由度和序列变异性的估计暗示每个位置大约有四到五个有效形态与有效字母,这指向一个大约二十或数十种氨基酸的最优字母表范围。现代生物使用二十种化学上不同的氨基酸,这一事实恰好位于该范围的下端,还与其他实际限制相符,例如蛋白质制造机器的复杂度以及能可靠地区分多少种不同侧链类型的限制。
对生命早期松散蛋白的线索
作者随后将这一框架变为洞察早期进化的窗口。他们将公式与先前关于不同氨基酸何时进入遗传密码的重建结果结合。在最早期阶段,字母表看起来过于狭小,无法支持稳定且整齐折叠的蛋白质。相反,理论预测链将保持高度柔性与无序,但仍能凝聚成液滴或松散网络,这些被认为对原始无膜类细胞结构很重要。随着更多氨基酸的加入,字母表越过阈值,使得折叠蛋白成为可能,起初偏向内在无序但有功能的链,随后才允许明确的三维结构与高效的催化剂出现。

这对生命局限性的含义
用通俗的话说,这项研究表明存在一个平衡点:字母过少会使编码特定形状变得困难,字母过多则会让寻找可行分子变得异常缓慢。考虑到这些链在水中的天然松散性,地球上的四个核苷酸与二十种氨基酸非常接近这个平衡点。低于这些字母表大小,进化将难以找到折叠良好的分子;高于它们时,增加字母带来的好处有限,因为单一稳定结构已可被编码。在这种观点下,生命的字母表并非任意:它们是近最小的解决方案,使信息含量高的分子既能快速折叠又能高效进化。
引用: Galpern, E.A., Ferreiro, D.U. & Sánchez, I.E. An information-theoretic argument for the restriction of the current biological alphabets to 4 nucleotides and 20 amino acids. Sci Rep 16, 10751 (2026). https://doi.org/10.1038/s41598-026-46009-8
关键词: 遗传密码, 蛋白质折叠, RNA结构, 分子进化, 生物聚合物字母表