Clear Sky Science · tr
Tek dizi dizilerden evrimsel trajektorlara: protein dil modelleri SARS‑CoV‑2’nin evrimsel potansiyelini yakalıyor
Gelecek pandemiler için bunun önemi
COVID‑19 pandemisinin büyük bölümünde araştırmacılar geriden takip etti: yeni varyantlar laboratuvarların bulaşıcılık veya bağışıklıktan kaçış üzerindeki etkilerini ölçmesinden önce gerçek dünyada ortaya çıktı. Bu çalışma, başlangıçta insan dilini anlamak için tasarlanmış güçlü bilgisayar modellerinin proteinlerin “dilini” okuyabildiğini ve koronavirüs spike proteininin yalnızca yapısal bloklarının dizisini kullanarak nasıl değişip uyum sağlayacağını çıkarabileceğini gösteriyor. Bu yetenek, araştırmacıların endişe verici varyantları daha erken işaretlemesine yardımcı olabilir ve birçok başka patojene genelleştirilebilir.
Bilgisayarlara protein okumayı öğretmek
Yazarlar, yaşam ağacının dört bir yanından onlarca milyon protein dizisi üzerinde eğitilmiş ESM‑2 adlı bir protein dil modeli ile çalışıyor. Bir dil modelinin sözcüklerden dilbilgisi ve anlam öğrendiği gibi, ESM‑2 de hangi amino asit desenlerinin gerçek proteinlerde “anlamlı” olduğunu öğrenir. SARS‑CoV‑2 spike proteininin dizisi verildiğinde, model her olası mutasyona iki temel puan atar: değişmiş bir dizinin protein yapısının öğrendiği kurallara ne kadar uyduğunu yansıtan bir dilbilgisi (grammaticality) puanı ve proteinin modelin iç temsilinde ne kadar farklılaştığını ölçen bir anlamsal (semantic) puan. Bu puanlar bilgisayar üzerinde her olası tek mutasyon için hesaplanabilir; bu strateji in silico derin mutasyon taraması olarak bilinir. 
Virüsün nerede değişip değişemeyeceğini haritalamak
Spike üzerindeki tüm tek harf değişikliklerini tarayarak ekip, ESM‑2’nin proteinin ana mimari özelliklerini doğal olarak yeniden ortaya koyduğunu buldu. Zararlı membran füzyonunu sağlayan stabil sapı oluşturan S2 bölümü yüksek derecede kısıtlı olarak tahmin edildi: oradaki çoğu mutasyon dilbilgisini keskin biçimde düşürerek protein yapısına veya işlevine zarar vereceğini ima ediyor. Buna karşılık, N‑terminus bölgesi ve reseptör bağlayıcı domain de dahil olmak üzere S1 bölümünün dış yüzündeki bölgeler çok daha fazla değişikliğe tolerans gösteriyor. Bu, yapısal çekirdeğin daha korunmuş kaldığı gerçek virüs genomlarında görülenle uyuşuyor; maruz kalan bu bölgeler hücrelere tutunmayı ve antikorlardan kaçmayı kolaylaştıran mutasyonları biriktiriyor.
Mutasyonlar arasındaki gizli işbirliklerini ortaya çıkarmak
Proteinler yalnızca bağımsız pozisyonlar kümesi değildir; bir mutasyon başkalarının kabul edilebilirliğini değiştirebilir; bu olgu epistaz olarak adlandırılır. Araştırmacılar bunu Omicron BA.1 spike’ından başlayıp tanımlayıcı mutasyonlarını tek tek orijinal Wuhan dizisine “geri çevirerek” bilgisayar ortamında inceleyerek araştırdılar. Her geri çevirme, modelin diğer tüm pozisyonlardaki amino asit olasılıklarını değiştiriyor. Büyük kaymalar, kaderleri birbirine bağlı olan poz çiftlerini açığa çıkarıyor. Bu yaklaşımla çalışma, hem bağışıklıktan kaçış hem de ACE2 reseptörüne bağlanmayı birlikte şekillendiren reseptör‑bağlayıcı domaine (ör. pozisyonlar civarı 484 ve 501) ait bilinen sıcak noktaları vurguluyor. Ayrıca, Omicron’un insan burun hücrelerinde artmış büyümesinin deneysel çalışmalarda daha sonra doğrulanan, daha az bariz kalan kalıntı kümelerine de işaret ediyor; bu da modelin gerçek yapısal ve işlevsel etkileşimleri yakaladığını gösteriyor. 
Viral evrimi izlemek ve aykırıları tespit etmek
Tek mutasyonların ötesinde, yazarlar ESM‑2’nin zaman içinde ortaya çıkan tüm varyant dizilerini anlayıp anlayamayacağını sorguluyor. Her adlandırılmış SARS‑CoV‑2 hattı için bir spike dizisini gömüyor ve bunları değişimin baskın yönünü de çıkaran evo‑velocity adı verilen bir yaklaşım kullanarak iki boyutlu bir haritaya yerleştiriyorlar. Ortaya çıkan düzen bilinen filogenetik ağacı yansıtıyor: erken hatlar birlikte kümeleniyor, sonra Alpha, Delta, Omicron ve rekombinant hatlara karşılık gelen dallar zaman sırasına uygun şekilde ayrılıyor. Ortalama dilbilgiselliği ve anlamsal uzaklık gibi basit özet istatistikler, varyant olmayan hatları, erken endişe verici varyantları ve Omicron sınıfı virüsleri temiz biçimde ayırıyor; bu da modelin iç temsilinin anlamlı evrimsel kaymaları izlediğini gösteriyor.
Gömüleri erken uyarı sistemine dönüştürmek
Pratik gözetimi araştırmak için ekip dinamik bir anlamsal skor tanıtıyor: her yeni spike dizisi yalnızca orijinal Wuhan suşuyla değil, aynı zamanda önceki üç ayda dolaşan virüslerin ortalamasıyla da karşılaştırılıyor. İngiltere’den yoğun dizileme verilerine uygulandığında, bu hareketli skor Alpha, Delta ve ardışık Omicron alt hatlarının yükseliş ve düşüşlerini belirgin dalgalar halinde üretiyor. Mevcut ortalamadan bir veya iki standart sapma uzaklıktaki diziler potansiyel endişe dizileri olarak işaretleniyor. Yalnızca bu erken aykırılar kullanılarak yöntem, Dünya Sağlık Örgütü’nün çoğu endişe verici varyantını ve JN.1 gibi daha sonra ortaya çıkan bazı önemli dalları vurgulamış olurdu; aynı zamanda hangi spike pozisyonlarının ortaya çıkan hatlarda tekrar tekrar değiştirildiğini de gösteriyor.
Gelecek tehditler için bunun anlamı
Genel olarak çalışma, raftan çıkarıldığı gibi kullanılan genel amaçlı bir protein dil modelinin SARS‑CoV‑2 spike proteininin hangi kısımlarının esnek, hangi bölgelerin yapısal olarak kritik olduğunu, mutasyonların nasıl birlikte çalıştığını ve pandeminin seyri boyunca spike’ın evrimsel uzayda nasıl dolaştığını tanımlayabildiğini gösteriyor. Yöntem tek bir protein dizisinden çalıştığı ve önceden hazırlanmış hizalamalara veya ayrıntılı yapısal verilere dayanmadığı için, yalnızca birkaç genom bilindiğinde bile bir salgının çok erken aşamasında uygulanabilir. Benzer modeller viral veri setlerine göre rafine edilip ayarlandıkça, yeni patojenlerin nasıl evrileceğini tahmin etme ve laboratuvar çalışmaları ile aşı tasarımı için hangi varyantların önceliklendirileceğini belirlemede önemli bir araç haline gelebilir.
Atıf: Lamb, K.D., Hughes, J., Lytras, S. et al. From single-sequences to evolutionary trajectories: protein language models capture the evolutionary potential of SARS-CoV-2. Nat Commun 17, 2938 (2026). https://doi.org/10.1038/s41467-026-69569-9
Anahtar kelimeler: protein dil modelleri, SARS‑CoV‑2 spike, viral evrim, epistaz, varyant izlemi