Clear Sky Science · ru
Аргумент на основе теории информации в пользу ограничения современных биологических алфавитов до 4 нуклеотидов и 20 аминокислот
Почему важны крошечные алфавиты жизни
Вся жизнь на Земле «пишет» свои генетические и белковые «тексты» с помощью удивительно маленьких алфавитов: всего четыре химические буквы для ДНК и РНК и двадцать для белков. Химики могут представить себе гораздо больше строительных блоков, так почему же биология ограничивается именно этими наборами? В статье утверждается, что ответ кроется в том, насколько легко эти молекулы могут сворачиваться в полезные формы и насколько эффективно эволюция может просеивать множество возможных последовательностей. Связывая идеи из физики и теории информации, авторы показывают, что знакомые алфавиты жизни как раз достаточно велики, чтобы молекулы сворачивались надёжно и при этом оставались эволюционно исследуемыми.
От запутанных нитей к полезным формам
Белки и РНК начинаются как гибкие цепочки, которые перебирают бесчисленные возможные формы. Лишь крошечная доля этих форм стабильна и функциональна. Для того чтобы жизнь функционировала, цепочка должна быстро находить свою правильную свёрнутую форму, не перебирая случайным образом все возможности. Авторы используют призму теории информации: при сворачивании цепочка «получает информацию», выбирая одну нативную форму из множества альтернатив. Эту прибавку можно измерить тем, насколько сокращается диапазон возможных форм на каждый участок цепочки. Они сравнивают это с информацией, приобретаемой в процессе эволюции при отборе из случайных последовательностей тех, которые действительно сворачиваются, показывая, что оба процесса должны быть сбалансированы, чтобы сворачивание происходило быстро и надёжно.

Соответствие «цифровых» букв физическим движениям
Ключевая идея — простая математическая связь между тремя величинами: размером химического алфавита, числом форм, которые каждый участок несвёрнутой цепи может принимать, и числом различных строительных блоков, которые фактически проявляются в этой позиции в реальных, эволюционировавших молекулах. Для полимера, сворачивающегося в хорошо определённую структуру, теория предсказывает, что число доступных несвёрнутых форм на позицию и эффективное разнообразие «букв», используемых на этой позиции, должны оба быть примерно равны квадратному корню из общего размера алфавита. Когда авторы подставляют в формулы измерения по реальным белкам и РНК, они обнаруживают, что среднее число несвёрнутых форм на позицию и эффективное разнообразие букв на позиции хорошо согласуются с этим предсказанием для обоих типов биополимеров.
Почему четыре нуклеотида и около двадцати аминокислот
Для РНК экспериментальные исследования гибкости остова и использования пар оснований указывают, что у каждого нуклеотида примерно два с половиной релевантных несвёрнутых формы. Возведение этого значения в квадрат даёт размер алфавита, очень близкий к четырём — ровно тем, что использует жизнь. Для белков оценки свободы остова и вариации последовательностей предполагают примерно четыре-пять эффективных форм и эффективных «букв» на позицию, что указывает на оптимальный алфавит в районе примерно двадцати или нескольких десятков аминокислот. Тот факт, что современная биология использует двадцать химически отличимых аминокислот, удобно укладывается в нижнюю часть этого интервала, что согласуется с дополнительными практическими ограничениями, такими как сложность механизма сборки белков и то, сколько разных типов боковых цепей можно надёжно различать.
Улики о ранних, «рыхлых» белках жизни
Затем авторы превращают эту схему в окно в раннюю эволюцию. Они комбинируют свои формулы с предыдущими реконструкциями того, когда разные аминокислоты вошли в генетический код. На самых ранних этапах алфавит, судя по всему, был слишком мал, чтобы поддерживать стабильные, чётко свёрнутые белки. Вместо этого теория предсказывает цепочки, остававшиеся сильно гибкими и неупорядоченными, но всё же способные агрегироваться в капли или рыхлые сети, которые, как полагают, были важны для примитивных мембраннобезопасных клеткоподобных структур. По мере добавления аминокислот алфавит пересекал порог, при котором стали возможны свёрнутые белки: сначала преобладали естественно неупорядоченные, но функциональные цепочки, а позже появились чётко определённые трёхмерные структуры и эффективные каталитические функции.

Что это значит для пределов жизни
Проще говоря, исследование показывает, что существует «золотая середина» между слишком малым числом химических букв, что затрудняет кодирование специфических форм, и слишком большим числом, что делает поиск рабочих молекул непрактично медленным. Четыре нуклеотида и двадцать аминокислот на Земле расположены очень близко к этой золотой середине, учитывая, насколько гибки эти цепочки в воде. Ниже этих размеров алфавита эволюции было бы трудно находить хорошо свёрнутые молекулы; выше — добавление букв даёт мало преимуществ, потому что одна стабильная структура уже может быть закодирована. В этом представлении алфавиты жизни не произвольны: это почти минимальные решения, позволяющие информационно насыщенным молекулам одновременно быстро сворачиваться и эффективно эволюционировать.
Цитирование: Galpern, E.A., Ferreiro, D.U. & Sánchez, I.E. An information-theoretic argument for the restriction of the current biological alphabets to 4 nucleotides and 20 amino acids. Sci Rep 16, 10751 (2026). https://doi.org/10.1038/s41598-026-46009-8
Ключевые слова: генетический код, свёртывание белков, структура РНК, молекулярная эволюция, алфавиты биополимеров