Clear Sky Science · it

Un argomento informativo per la restrizione degli alfabeti biologici attuali a 4 nucleotidi e 20 amminoacidi

· Torna all'indice

Perché contano i piccoli alfabeti della vita

Tutta la vita sulla Terra scrive i suoi “testi” genetici e proteici usando alfabeti sorprendentemente ridotti: solo quattro lettere chimiche per DNA e RNA, e venti per le proteine. I chimici possono immaginare molti più mattoni costitutivi, quindi perché la biologia si limita a questi insiemi? Questo articolo sostiene che la risposta risiede nella facilità con cui queste molecole si ripiegano in forme utili e nell'efficienza con cui l'evoluzione può esplorare l'insieme delle possibili sequenze. Collegando idee dalla fisica e dalla teoria dell'informazione, gli autori mostrano che gli alfabeti noti della vita sono appena abbastanza grandi perché le molecole si ripieghino in modo affidabile e restino comunque evolvibili.

Da fili aggrovigliati a forme utili

Proteine e RNA cominciano come catene flessibili che ondeggiano attraverso innumerevoli forme possibili. Solo una frazione minima di quelle forme è stabile e funzionale. Perché la vita funzioni, una catena deve trovare rapidamente la sua forma nativa corretta senza provare ogni possibilità a caso. Gli autori adottano una lente informazionale: quando una catena si ripiega, «acquista informazione» selezionando una forma nativa tra molte alternative. Questo guadagno si può misurare come la riduzione dell'insieme di forme possibili per posizione lungo la catena. Confrontano questo valore con l'informazione guadagnata quando l'evoluzione scarta sequenze casuali fino a quelle che effettivamente si ripiegano, mostrando che entrambi i processi devono essere bilanciati perché il ripiegamento sia veloce e affidabile.

Figure 1
Figura 1.

Abbinare lettere digitali a movimenti fisici

L'intuizione chiave è un collegamento matematico semplice tra tre elementi: la dimensione dell'alfabeto chimico, quante forme ogni posizione di una catena non ripiegata può adottare, e quanti diversi mattoni appaiono effettivamente in quella posizione nelle molecole evolute. Per un polimero che si ripiega in una struttura ben definita, la teoria predice che il numero di forme non ripiegate accessibili per posizione e la diversità effettiva di lettere usate lì dovrebbero essere entrambi approssimativamente pari alla radice quadrata della dimensione totale dell'alfabeto. Quando gli autori inseriscono misure tratte da proteine e RNA reali, trovano che il numero medio di forme non ripiegate per posizione e la varietà effettiva di lettere per posizione corrispondono da vicino a questa previsione, per entrambi i tipi di biopolimero.

Perché quattro nucleotidi e circa venti amminoacidi

Per l'RNA, studi sperimentali sulla flessibilità dello scheletro e sull'uso delle basi suggeriscono che ogni nucleotide abbia circa due o tre forme non ripiegate rilevanti. Elevando al quadrato questo valore si ottiene una dimensione dell'alfabeto molto vicina a quattro, esattamente quella usata dalla vita. Per le proteine, stime sulla libertà della catena principale e sulla variazione delle sequenze implicano circa quattro-cinque forme e lettere efficaci per posizione, il che indica un alfabeto ottimale nell'intorno di circa venti o qualche decina di amminoacidi. Il fatto che la biologia moderna usi venti amminoacidi chimicamente distinti si colloca comodamente nella parte bassa di questo intervallo, coerente con limiti pratici aggiuntivi come la complessità macchinaria necessaria per produrre le proteine e il numero di tipi di catene laterali che si possono mantenere distinti in modo affidabile.

Indizi sulle prime proteine morbide della vita

Gli autori trasformano poi questo quadro in una finestra sull'evoluzione primitiva. Combinano le loro formule con ricostruzioni precedenti di quando diversi amminoacidi sono entrati nel codice genetico. Nelle fasi più antiche, l'alfabeto sembra essere stato troppo piccolo per supportare proteine stabili e ordinatamente ripiegate. Invece, la teoria predice catene rimaste altamente flessibili e disordinate, ma comunque in grado di aggregarsi in goccioline o reti allentate ritenute importanti per strutture celluloidi primitive prive di membrane. Con l'aggiunta di più amminoacidi, l'alfabeto ha attraversato una soglia dove le proteine ripiegate sono diventate possibili, favorendo inizialmente catene intrinsecamente disordinate ma funzionali, e solo in seguito permettendo strutture tridimensionali ben definite e catalizzatori efficienti.

Figure 2
Figura 2.

Cosa significa per i limiti della vita

In termini comuni, lo studio suggerisce che esiste un punto ottimale tra avere troppe poche lettere chimiche, condizione che rende difficile codificare forme specifiche, e averne troppe, che rende impossibilmente lenta la ricerca di molecole utili. I quattro nucleotidi e i venti amminoacidi della Terra si collocano molto vicino a quel punto ottimale, dato quanto queste catene sono intrinsecamente flessuose in acqua. Al di sotto di queste dimensioni d'alfabeto, l'evoluzione farebbe fatica a trovare molecole ben ripiegate; oltre esse, lettere aggiuntive apporterebbero scarso vantaggio perché una singola struttura stabile può già essere codificata. In questa prospettiva, gli alfabeti della vita non sono arbitrari: sono soluzioni quasi-minimali che permettono alle molecole ricche di informazione di ripiegarsi rapidamente ed evolversi in modo efficiente.

Citazione: Galpern, E.A., Ferreiro, D.U. & Sánchez, I.E. An information-theoretic argument for the restriction of the current biological alphabets to 4 nucleotides and 20 amino acids. Sci Rep 16, 10751 (2026). https://doi.org/10.1038/s41598-026-46009-8

Parole chiave: codice genetico, ripiegamento delle proteine, struttura dell'RNA, evoluzione molecolare, alfabeti dei biopolimeri