Clear Sky Science · sv
En informationsteoretisk förklaring till att dagens biologiska alfabet begränsas till 4 nukleotider och 20 aminosyror
Varför livets små alfabet är viktiga
Allt liv på jorden skriver sina genetiska och proteinlika ”texter” med förvånansvärt små alfabet: bara fyra kemiska bokstäver för DNA och RNA och tjugo för proteiner. Kemister kan föreställa sig många fler byggstenar, så varför håller biologin sig till dessa begränsade uppsättningar? Denna artikel hävdar att svaret ligger i hur lätt dessa molekyler kan veckas till användbara former och hur effektivt evolutionen kan söka igenom alla möjliga sekvenser. Genom att förena idéer från fysik och informationsteori visar författarna att livets välbekanta alfabet är precis tillräckligt stora för att molekyler ska kunna veckas pålitligt och samtidigt vara evolverbara.
Från trassliga strängar till användbara former
Proteiner och RNA börjar som flexibla kedjor som rör sig genom oräkneliga möjliga former. Endast en mycket liten del av dessa former är stabila och funktionella. För att livet ska fungera måste en kedja snabbt hitta sin korrekta veckade form utan att pröva varje möjlighet slumpmässigt. Författarna använder ett informationsteoretiskt perspektiv: när en kedja veckas ”får den information” genom att välja en native-form bland många alternativ. Denna vinst kan mätas som hur mycket utbudet av möjliga former krymper per position längs kedjan. De jämför detta med informationen som vinns när evolutionen gallrar bort slumpmässiga sekvenser till dem som faktiskt veckas, och visar att båda processerna måste vara i balans för att veckning ska vara snabb och tillförlitlig.

Att matcha digitala bokstäver med fysiska rörelser
Den centrala insikten är en enkel matematisk koppling mellan tre saker: storleken på det kemiska alfabetet, hur många former varje position i en ofveckad kedja kan anta, och hur många olika byggstenar som effektivt framträder på den positionen i verkliga, evolverade molekyler. För en polymer som veckas till en väldefinierad struktur förutspår teorin att antalet tillgängliga ofveckade former per position och den effektiva mångfalden av bokstäver som används där båda bör vara ungefär lika med kvadratroten av det totala alfabetstorleken. När författarna stoppar in mätningar från verkliga proteiner och RNA finner de att det genomsnittliga antalet ofveckade former per position och den effektiva variationen av bokstäver per position stämmer nära överens med denna förutsägelse, för båda typer av biopolymerer.
Varför fyra nukleotider och ungefär tjugo aminosyror
För RNA tyder experimentella studier av ryggradens flexibilitet och baspars användning på att varje nukleotid har omkring två och en halv relevanta ofveckade former. Kvadrering av detta värde ger en alfabetstorlek mycket nära fyra, precis det som livet använder. För proteiner antyder uppskattningar av ryggradens frihet och sekvensvariation omkring fyra till fem effektiva former och effektiva bokstäver per position, vilket pekar på ett optimalt alfabet i storleksordningen ungefär tjugo eller ett par dussin aminosyror. Att modern biologi använder tjugo kemiskt distinkta aminosyror ligger bekvämt i den lägre delen av detta intervall, i linje med ytterligare praktiska begränsningar som hur komplex proteinbyggnadsmaskineriet kan vara och hur många olika sidokedjetyper som kan hållas pålitligt åtskilda.
Ledtrådar till livets tidiga, sladdriga proteiner
Författarna vänder sedan denna ram till ett fönster mot tidig evolution. De kombinerar sina formler med tidigare rekonstruktioner av när olika aminosyror trädde in i den genetiska koden. I de tidigaste skedena verkar alfabetet ha varit för litet för att alls stödja stabila, prydligt veckade proteiner. Istället förutspår teorin kedjor som förblev mycket flexibla och oordnade, men som ändå kunde klumpa sig till droppar eller lösa nätverk tänkta att vara viktiga för primitiva membranlösa cell-liknande strukturer. När fler aminosyror lades till korsade alfabetet en tröskel där veckade proteiner blev möjliga, först gynnande intrinsikt oordnade men funktionella kedjor, och först senare möjliggjordes skarpa tredimensionella strukturer och effektiva katalysatorer.

Vad detta betyder för livets begränsningar
I vardagliga termer antyder studien att det finns en gyllene mellanväg mellan att ha för få kemiska bokstäver, vilket gör det svårt att koda specifika former, och för många, vilket gör sökandet efter användbara molekyler omöjligt långsamt. Jordens fyra nukleotider och tjugo aminosyror ligger mycket nära den punkten, givet hur slappt dessa kedjor naturligt är i vatten. Under dessa alfabetstorlekar skulle evolutionen ha svårt att hitta välveckade molekyler; över dem ger ytterligare bokstäver liten fördel eftersom en enda stabil struktur redan kan kodas. I detta perspektiv är livets alfabet inte godtyckliga: de är nära-minimala lösningar som låter informationsrika molekyler både veckas snabbt och utvecklas effektivt.
Citering: Galpern, E.A., Ferreiro, D.U. & Sánchez, I.E. An information-theoretic argument for the restriction of the current biological alphabets to 4 nucleotides and 20 amino acids. Sci Rep 16, 10751 (2026). https://doi.org/10.1038/s41598-026-46009-8
Nyckelord: genetisk kod, proteinfoldning, RNA-struktur, molekylär evolution, biopolymeralfabet