Clear Sky Science · ja

なぜ生物の小さなアルファベットが4つのヌクレオチドと20のアミノ酸に制限されるのか――情報理論的な議論

· 一覧に戻る

生命の小さなアルファベットが重要な理由

地球上のすべての生命は、遺伝物質やタンパク質の「テキスト」を驚くほど小さなアルファベットで記述します:DNAやRNAではわずか4つの化学的文字、タンパク質では20の文字だけです。化学者ははるかに多くの構成単位を想像できますが、なぜ生物はこの限られた集合にとどまるのでしょうか。本稿は、その答えがこれらの分子が有用なかたちに折りたためる容易さと、進化がすべての可能な配列をどれだけ効率的に探索できるかにあると論じます。物理学と情報理論の考えを結びつけることで、著者らは生命のよく知られたアルファベットが、分子が確実に折りたためるだけの最小限の大きさを持ちつつ、進化可能性も保てる程度に十分であることを示します。

もつれた鎖から有用な形へ

タンパク質やRNAは、無数の可能な形を揺れ動く柔軟な鎖として始まります。そのうち安定で機能的な形はごく一部にすぎません。生命が成り立つには、鎖はすべての可能性を無作為に試すことなく迅速に正しい折りたたまれた形を見つけなければなりません。著者らは情報理論の観点を用います:鎖が折りたたまれるとき、多数の代替形のうちのひとつのネイティブ構造を選ぶことで「情報を獲得」します。この獲得は、鎖に沿った位置ごとに可能な形の範囲がどれだけ縮むかとして測れます。彼らはこれを、進化がランダムな配列を実際に折りたためる配列へと選別する際に獲得される情報と比較し、折りたたみが速く確実であるためには両者のバランスが必要であることを示します。

Figure 1
Figure 1.

デジタルな文字と物理的な動きの対応

重要な洞察は三つの要素を結ぶ単純な数学的関係にあります:化学的アルファベットの大きさ、折りたたまれていない鎖の各位置が取りうる形の数、そして実際に進化した分子でその位置に事実上現れる構成単位の多様性です。よく定義された構造に折りたたまれるポリマーについて、理論は各位置でアクセス可能な未折りたたみ形の数と、そこで用いられる実効的な文字の多様性が、総アルファベットサイズの平方根程度であると予測します。著者らが実際のタンパク質とRNAからの測定値を代入すると、位置ごとの未折りたたみ形の平均数と位置ごとの実効的文字の多様性が、この予測と密接に一致することが分かります。両方のバイオポリマー種でこの一致が見られます。

なぜヌクレオチドは4つ、アミノ酸は約20か

RNAについては、主鎖の柔軟性と塩基対利用の実験的研究から、各ヌクレオチドが約2.5の関連する未折りたたみ形を持つことが示唆されます。この値を二乗するとアルファベットサイズはちょうど4に非常に近くなり、まさに生命が用いる数です。タンパク質については、主鎖の自由度と配列変動の推定から各位置で約4〜5の実効的形と実効的文字が示唆され、これはおよそ20あるいは数十のアミノ酸という最適なアルファベット範囲を示します。現代生物が20の化学的に異なるアミノ酸を使っているという事実は、この範囲の下限近くに位置しており、タンパク質合成機構の複雑さや異なる側鎖タイプを確実に区別して保持できる数といった実際的な制約とも整合します。

初期のゆるいタンパク質への手がかり

著者らはこの枠組みを、初期進化の窓として用います。彼らは自らの式を、異なるアミノ酸が遺伝暗号に導入された時期に関する以前の再構成研究と組み合わせます。最も初期の段階では、アルファベットは安定できれいに折りたたまれるタンパク質を支えるには小さすぎたと見られます。その代わりに、理論は高く柔軟で無秩序なままの鎖を予測しますが、これらは原始的な膜を持たない細胞様構造に重要と考えられる滴やゆるいネットワークに凝集することができたはずです。より多くのアミノ酸が加わるにつれてアルファベットは閾値を越え、まず本質的に無秩序だが機能する鎖を好み、さらに後になって鋭く定義された三次元構造や効率的な触媒が可能になったと考えられます。

Figure 2
Figure 2.

生命の限界に関する意味

日常的な言い方をすれば、この研究は、特定の形を符号化するのが難しくなるほど文字が少なすぎる場合と、使える文字が多すぎて実用的な分子を見つける探索が途方もなく遅くなる場合との間に適切な落としどころ(スイートスポット)が存在することを示唆します。水中でこれらの鎖が自然に示す柔らかさを考えると、地球上の4つのヌクレオチドと20のアミノ酸はそのスイートスポットの非常に近くに位置します。それらより小さいアルファベットでは進化は十分に折りたたまれた分子を見つけるのに苦労したでしょうし、それより大きい場合は追加の文字がほとんど利点をもたらさないでしょう。一つの安定した構造はすでに符号化可能だからです。この観点では、生命のアルファベットは恣意的ではなく、情報豊かな分子が迅速に折りたため、かつ効率的に進化できるようにした近最小解であるといえます。

引用: Galpern, E.A., Ferreiro, D.U. & Sánchez, I.E. An information-theoretic argument for the restriction of the current biological alphabets to 4 nucleotides and 20 amino acids. Sci Rep 16, 10751 (2026). https://doi.org/10.1038/s41598-026-46009-8

キーワード: 遺伝暗号, タンパク質の折りたたみ, RNA構造, 分子進化, バイオポリマーのアルファベット