Clear Sky Science · fr

Un argument information-théorique pour la restriction des alphabets biologiques actuels à 4 nucléotides et 20 acides aminés

· Retour à l’index

Pourquoi les petits alphabets de la vie comptent

Toute la vie sur Terre écrit ses « textes » génétiques et protéiques avec des alphabets étonnamment restreints : seulement quatre lettres chimiques pour l’ADN et l’ARN, et vingt pour les protéines. Les chimistes peuvent imaginer beaucoup plus de blocs de construction ; pourquoi la biologie s’en tient-elle à ces ensembles limités ? Cet article soutient que la réponse tient à la facilité avec laquelle ces molécules peuvent se replier en formes utiles et à l’efficacité avec laquelle l’évolution peut explorer l’espace des séquences possibles. En reliant des idées de la physique et de la théorie de l’information, les auteurs montrent que les alphabets familiers de la vie sont juste assez grands pour que les molécules se replient de façon fiable tout en restant évolutives.

De cordes emmêlées à des formes utiles

Les protéines et l’ARN commencent comme des chaînes flexibles qui fluctuent entre d’innombrables conformations possibles. Seule une très petite fraction de ces formes est stable et fonctionnelle. Pour que la vie fonctionne, une chaîne doit rapidement trouver sa conformation native correcte sans essayer au hasard toutes les possibilités. Les auteurs adoptent un point de vue informationnel : lorsqu’une chaîne se replie, elle « gagne de l’information » en sélectionnant une forme native parmi de nombreuses alternatives. Ce gain se mesure par la réduction de l’ensemble des formes possibles par position le long de la chaîne. Ils confrontent cela à l’information gagnée lorsque l’évolution filtre des séquences aléatoires pour ne garder que celles qui se replient effectivement, montrant que les deux processus doivent être équilibrés pour que le repliement soit rapide et fiable.

Figure 1
Figure 1.

Appariement des lettres numériques aux mouvements physiques

L’idée clé est un lien mathématique simple entre trois éléments : la taille de l’alphabet chimique, le nombre de conformations que chaque position d’une chaîne non repliée peut adopter, et le nombre effectif de blocs de construction qui apparaissent à cette position dans des molécules réelles et évoluées. Pour un polymère qui se replie en une structure bien définie, la théorie prédit que le nombre de formes non repliées accessibles par position, et la diversité effective des lettres employées à cet endroit, devraient être tous deux à peu près égaux à la racine carrée de la taille totale de l’alphabet. Lorsque les auteurs insèrent des mesures provenant de protéines et d’ARN réels, ils constatent que le nombre moyen de formes non repliées par position et la variété effective de lettres par position s’accordent étroitement avec cette prédiction pour les deux types de biopolymères.

Pourquoi quatre nucléotides et environ vingt acides aminés

Pour l’ARN, des études expérimentales sur la flexibilité de l’épine dorsale et l’utilisation des appariements de bases suggèrent que chaque nucléotide possède environ deux à deux et demie conformations non repliées pertinentes. En élevant ce nombre au carré, on obtient une taille d’alphabet très proche de quatre, exactement celle utilisée par la vie. Pour les protéines, les estimations de la liberté de la chaîne principale et de la variation de séquence impliquent environ quatre à cinq conformations effectives et lettres effectives par position, ce qui pointe vers un alphabet optimal de l’ordre d’une vingtaine ou de quelques dizaines d’acides aminés. Le fait que la biologie moderne utilise vingt acides aminés chimiquement distincts se situe confortablement à l’extrémité basse de cette plage, en accord avec des limites pratiques supplémentaires comme la complexité que peut atteindre la machinerie de synthèse des protéines et le nombre de types de chaînes latérales que l’on peut maintenir distincts de manière fiable.

Indices sur les premières protéines lâches de la vie

Les auteurs transforment ensuite ce cadre en une fenêtre sur l’évolution précoce. Ils combinent leurs formules avec des reconstitutions antérieures indiquant quand différents acides aminés sont entrés dans le code génétique. Aux tout premiers stades, l’alphabet paraît trop petit pour soutenir des protéines stables et nettement repliées. La théorie prédit plutôt des chaînes très flexibles et désordonnées, capables néanmoins de s’agréger en gouttelettes ou en réseaux lâches, structures sans membrane pensées importantes pour des assemblages cellulaires primitifs. À mesure que des acides aminés supplémentaires sont ajoutés, l’alphabet franchit un seuil où les protéines repliées deviennent possibles, favorisant d’abord des chaînes intrinsèquement désordonnées mais fonctionnelles, puis seulement plus tard des structures tridimensionnelles bien définies et des catalyseurs efficaces.

Figure 2
Figure 2.

Ce que cela implique pour les limites de la vie

En termes simples, l’étude suggère qu’il existe un compromis idéal entre un nombre trop faible de lettres chimiques, qui rend difficile le codage de formes spécifiques, et un nombre trop élevé, qui rend la recherche de molécules utilisables impossiblement lente. Les quatre nucléotides et les vingt acides aminés de la Terre se situent très près de ce compromis, compte tenu de la souplesse naturelle de ces chaînes en milieu aqueux. En dessous de ces tailles d’alphabet, l’évolution peinerait à trouver des molécules bien repliées ; au-delà, des lettres additionnelles n’apporteraient guère d’avantage car une structure stable peut déjà être encodée. Dans cette perspective, les alphabets de la vie ne sont pas arbitraires : ce sont des solutions proches du minimal qui permettent aux molécules riches en information de se replier rapidement et d’évoluer efficacement.

Citation: Galpern, E.A., Ferreiro, D.U. & Sánchez, I.E. An information-theoretic argument for the restriction of the current biological alphabets to 4 nucleotides and 20 amino acids. Sci Rep 16, 10751 (2026). https://doi.org/10.1038/s41598-026-46009-8

Mots-clés: code génétique, repliement des protéines, structure de l'ARN, évolution moléculaire, alphabets de biopolymères