Clear Sky Science · de

Ein informationstheoretisches Argument für die Beschränkung der heutigen biologischen Alphabete auf 4 Nukleotide und 20 Aminosäuren

· Zurück zur Übersicht

Warum die winzigen Alphabete des Lebens wichtig sind

Alles Leben auf der Erde schreibt seine genetischen und Protein‑„Texte“ mit überraschend kleinen Alphabeten: nur vier chemische Buchstaben für DNA und RNA und zwanzig für Proteine. Chemiker können sich deutlich mehr Bausteine vorstellen – warum beschränkt sich die Biologie also auf diese Mengen? Dieser Artikel argumentiert, dass die Antwort darin liegt, wie leicht diese Moleküle in nützliche Formen falten und wie effizient die Evolution den Raum möglicher Sequenzen durchsuchen kann. Indem die Autoren Ideen aus Physik und Informationstheorie verknüpfen, zeigen sie, dass die vertrauten Alphabete des Lebens gerade groß genug sind, damit Moleküle zuverlässig falten und zugleich evolvierbar bleiben.

Von verhakten Ketten zu nützlichen Formen

Proteine und RNA beginnen als flexible Ketten, die eine unüberschaubare Vielfalt von Gestalten durchprobieren. Nur ein winziger Bruchteil dieser Gestalten ist stabil und funktional. Damit Leben funktioniert, muss eine Kette schnell ihre korrekte gefaltete Form finden, ohne zufällig jede Möglichkeit auszuprobieren. Die Autoren betrachten das durch die Brille der Informationstheorie: Beim Falten „gewinnt“ eine Kette Information, indem sie eine native Form aus vielen Alternativen auswählt. Dieser Gewinn lässt sich messen als die Verringerung des Bereichs möglicher Formen pro Position entlang der Kette. Sie vergleichen das mit der Information, die die Evolution gewinnt, wenn sie zufällige Sequenzen zu solchen auswählt, die tatsächlich falten, und zeigen, dass beide Prozesse ausbalanciert sein müssen, damit Faltung schnell und zuverlässig ist.

Figure 1
Figure 1.

Digitale Buchstaben und physikalische Bewegungen in Einklang bringen

Die zentrale Erkenntnis ist eine einfache mathematische Verbindung zwischen drei Größen: der Größe des chemischen Alphabets, wie viele Formen jede Position einer ungefalteten Kette einnehmen kann, und wie viele verschiedene Bausteine dort in realen, evolvierten Molekülen tatsächlich effektiv auftreten. Für ein Polymer, das zu einer wohldefinierten Struktur faltet, sagt die Theorie voraus, dass die Anzahl erreichbarer ungefalteter Formen pro Position und die effektive Vielfalt der dort verwendeten „Buchstaben“ beide ungefähr der Quadratwurzel der Gesamtalphabetgröße entsprechen sollten. Setzen die Autoren Messwerte aus echten Proteinen und RNA ein, so finden sie, dass die mittlere Anzahl ungefalteter Formen pro Position und die effektive Buchstabenvielfalt pro Position eng mit dieser Vorhersage übereinstimmen – und zwar für beide Biopolymer‑Typen.

Warum vier Nukleotide und etwa zwanzig Aminosäuren

Für RNA deuten experimentelle Studien zur Rückgratflexibilität und zur Nutzung von Basenpaaren darauf hin, dass jedes Nukleotid etwa zweieinhalb relevante ungefaltete Formen hat. Quadriert man diesen Wert, ergibt sich eine Alphabetgröße, die sehr nahe bei vier liegt – genau dem, was das Leben verwendet. Für Proteine deuten Schätzungen zur Rückgratfreiheit und zur Sequenzvariation auf etwa vier bis fünf effektive Formen und effektive „Buchstaben“ pro Position hin, was auf ein optimales Alphabet in der Größenordnung von rund zwanzig oder einigen Dutzend Aminosäuren hindeutet. Dass die moderne Biologie zwanzig chemisch unterscheidbare Aminosäuren nutzt, liegt damit komfortabel am unteren Ende dieses Bereichs und ist konsistent mit zusätzlichen praktischen Grenzen, etwa wie komplex die Proteinsynthese-Maschinerie sein kann und wie viele verschiedene Seitenketten‑Typen zuverlässig differenziert werden können.

Hinweise auf die frühen, schlaffen Proteine des Lebens

Die Autoren verwandeln dieses Rahmenwerk in ein Fenster zur frühen Evolution. Sie kombinieren ihre Formeln mit früheren Rekonstruktionen darüber, wann verschiedene Aminosäuren in den genetischen Code eingeführt wurden. In den frühesten Stadien scheint das Alphabet zu klein gewesen zu sein, um stabile, sauber gefaltete Proteine zu unterstützen. Stattdessen sagt die Theorie Ketten voraus, die stark flexibel und ungeordnet blieben, aber dennoch zu Tröpfchen oder lockeren Netzwerken verklumpen konnten – Strukturen, die als wichtig für primitive, membranlose zellähnliche Gebilde gelten. Mit dem Hinzukommen weiterer Aminosäuren überschritt das Alphabet eine Schwelle, ab der gefaltete Proteine möglich wurden: zunächst wurden intrinsisch ungeordnete, aber funktionale Ketten begünstigt, und erst später traten scharf definierte dreidimensionale Strukturen und effiziente Katalysatoren auf.

Figure 2
Figure 2.

Was das für die Grenzen des Lebens bedeutet

Anschaulich legt die Studie nahe, dass es einen Sweetspot gibt zwischen zu wenigen chemischen Buchstaben, was das Kodieren spezifischer Formen erschwert, und zu vielen, was die Suche nach brauchbaren Molekülen unpraktikabel verlangsamt. Die vier Nukleotide und zwanzig Aminosäuren der Erde liegen sehr nahe an diesem Sweetspot, angesichts der natürlichen Schlappheit dieser Ketten im wässrigen Milieu. Unterhalb dieser Alphabetgrößen hätte die Evolution Mühe, wohlgefaltete Moleküle zu finden; oberhalb bringen zusätzliche Buchstaben wenig Vorteil, weil sich bereits mit wenigen Bausteinen eine einzelne stabile Struktur kodieren lässt. In dieser Sicht sind die Alphabete des Lebens nicht willkürlich: Sie sind nahe minimale Lösungen, die informationsreiche Moleküle sowohl schnelles Falten als auch effiziente Evolution ermöglichen.

Zitation: Galpern, E.A., Ferreiro, D.U. & Sánchez, I.E. An information-theoretic argument for the restriction of the current biological alphabets to 4 nucleotides and 20 amino acids. Sci Rep 16, 10751 (2026). https://doi.org/10.1038/s41598-026-46009-8

Schlüsselwörter: genetischer Code, Proteinfaltung, RNA-Struktur, molekulare Evolution, Biopolymer-Alphabete