Clear Sky Science · ja

単一配列から進化の軌跡へ:タンパク質言語モデルがSARS-CoV-2の進化的潜在力をとらえる

· 一覧に戻る

将来のパンデミックにとっての意義

COVID‑19パンデミックの大部分において、科学者たちは後手に回っていました。新しい変異株は実世界で先に出現し、それらの変化が感染力や免疫回避に与える影響を実験室が評価するよりも早く広がってしまっていたのです。本研究は、もともと言語理解のために設計された高度なコンピュータモデルが、代わりにタンパク質の「言語」を読み取り、コロナウイルスのスパイクタンパク質がどのように変化・適応しうるかを、構成要素の配列だけから推測できることを示しています。この能力は、懸念すべき変異を早期に識別する手助けになり、他の多くの病原体にも応用できる可能性があります。

コンピュータにタンパク質を読ませる

著者らはESM‑2と呼ばれるタンパク質言語モデルを扱っています。これは生命の系統全体から集められた何千万ものタンパク質配列で学習されています。言語モデルが語彙や文法から意味を学ぶのと同様に、ESM‑2はどのアミノ酸パターンが実際のタンパク質として「理にかなっている」かを学習します。SARS‑CoV‑2スパイクの配列を与えると、このモデルは各可能な変異に対して2つの主要なスコアを割り当てます:変化した配列が学習されたタンパク質構造の規則にどれだけ適合するかを反映する文法性(grammaticality)スコアと、モデル内部の表現においてタンパク質全体がどれだけ変化するかを測るセマンティック(semantic)スコアです。これらのスコアは、すべての単一変異について計算可能であり、この戦略はin silicoディープミュータショナルスキャニングとして知られます。

Figure 1
Figure 1.

ウイルスが変化できる場所とできない場所の地図化

スパイク上のすべての一塩基変化(ここでは一アミノ酸変化)をスキャンすることで、チームはESM‑2が自然にタンパク質の主要な構造的特徴を再現することを発見しました。膜融合を駆動する安定した茎状部分を形成するS2領域は強く制約されると予測されます:そこに生じる多くの変異は文法性を大きく低下させ、タンパク質構造や機能を損なうことを示唆します。対照的に、S1の外面領域、特にN末端ドメインや受容体結合ドメイン(RBD)ははるかに多くの変化を許容します。これは、これらの露出領域が細胞への付着や抗体回避を助ける変異を蓄積する一方で、構造の中核はより保存されているという実際のウイルスゲノムで見られる現象と一致します。

変異間の隠れた協調を明らかにする

タンパク質は独立した部位の集合体ではなく、一つの変異が他の部位で受け入れられる度合いを変えることがあり、これをエピスタシスと呼びます。研究者たちはオミクロンBA.1のスパイクから出発し、その特徴的な変異を一つずつ元の武漢株配列に「戻す」計算実験を行ってこれを調べました。各リバージョンは他のすべての位置のアミノ酸に対するモデルの尤度を変化させます。大きな変化は運命が結びついた部位のペアを明らかにします。このアプローチにより、本研究は受容体結合ドメインの周囲の484位や501位のような既知のホットスポットを強調し、これらが免疫回避とACE2受容体への結合の両方を形作ることを示します。また、オミクロンのヒト鼻上皮細胞での増殖促進に関する実験研究で後に確認された、やや目立たない残基クラスターの相互作用も示しており、モデルが実際の構造的・機能的結びつきを捕らえていることを示唆します。

Figure 2
Figure 2.

ウイルス進化を追跡し逸脱を見つける

単一の変異を越えて、著者らはESM‑2が時間経過で現れた全体の変異株配列を理解できるかを検討します。彼らは名前の付いた各SARS‑CoV‑2系統の代表スパイク配列を埋め込み、evo‑velocityと呼ばれる手法で二次元マップ上に配置し、支配的な変化の方向も推定します。得られた配置は既知の系統樹を反映します:初期系統はまとまってクラスタを作り、その後Alpha、Delta、Omicronや組換え系統に対応する枝が正しい時間順に分かれます。平均的な文法性やセマンティック距離のような単純な要約統計は、非変異株系統、初期の懸念される変異株、オミクロン類のウイルスを明確に分離し、モデルの内部表現が意味のある進化的変化を追跡していることを示します。

埋め込みを早期警報システムに変える

実用的な監視を探るために、チームは動的セマンティックスコアを導入します:各新しいスパイク配列は元の武漢株だけでなく、直近3か月間に循環したウイルスの平均とも比較されます。英国の密な配列データに適用すると、この移動スコアはAlpha、Delta、そして続くオミクロン亜系統の上昇と低下に対応する明瞭な波を生み出しました。現在の平均から1〜2標準偏差外に位置する配列は潜在的な懸念配列として示されます。これらの初期逸脱のみを使っても、本手法は世界保健機関が定義した多くの懸念変異株や後の重要な派生株(例:JN.1)を強調でき、出現する系統で繰り返し変化するスパイクの特定部位も明らかにしました。

将来の脅威に対する意味合い

総じて、本研究は市販の汎用タンパク質言語モデルをそのまま用いるだけで、SARS‑CoV‑2スパイクタンパク質のどの部分が柔軟で、どの部位が構造的に重要で、変異がどのように協調し、パンデミックを通じてスパイクが進化空間をどのように移動したかを同定できることを示しています。この手法は単一のタンパク質配列から動作し、既存のアラインメントや詳細な構造データに依存しないため、わずかなゲノムしか知られていないアウトブレイクの初期段階でも適用可能です。類似のモデルがウイルスデータセットに合わせて改良・調整されれば、新たな病原体の進化を予測し、実験研究やワクチン設計のために優先すべき変異体を選定するための重要なツールセットの一部となる可能性があります。

引用: Lamb, K.D., Hughes, J., Lytras, S. et al. From single-sequences to evolutionary trajectories: protein language models capture the evolutionary potential of SARS-CoV-2. Nat Commun 17, 2938 (2026). https://doi.org/10.1038/s41467-026-69569-9

キーワード: タンパク質言語モデル, SARS-CoV-2スパイク, ウイルス進化, エピスタシス, 変異体監視