Clear Sky Science · tr

Transkripsiyonel düzenlemeyi kapsamlı biçimde analiz etmek için uçtan uca genellenebilir bir derin öğrenme çerçevesi

· Dizine geri dön

Her laboratuvar testi yapılmadan DNA’yı okumak

Modern biyoloji, her hücre tipinde genlerimizin nasıl kontrol edildiğini haritalamak için sıklıkla düzinelerce maliyetli laboratuvar deneyi gerektirir. Bu çalışma, dizileme verileri ile yapay zekânın akıllıca bir bileşimini kullanarak bu testlerin birçoğunun yerini alabilecek bir yaklaşım gösteriyor; genoma ait kontrol mekanizmasını okumak için daha hızlı ve daha ucuz bir yol sunuyor.

Figure 1. Tek bir yapay zeka modeli, DNA ve tek bir aktivite ölçümüyle genoma yayılmış birçok türde gen kontrol haritası üretir.
Figure 1. Tek bir yapay zeka modeli, DNA ve tek bir aktivite ölçümüyle genoma yayılmış birçok türde gen kontrol haritası üretir.

Gen kontrolünü haritalamak için daha akıllı bir kestirme

Yazarlar BioSeq2Seq adında, genoma ilişkin birçok düzenleyici bilgiyi çıkarmak üzere tasarlanmış bir derin öğrenme çerçevesi sunuyor. Her kimyasal etiket veya protein için ayrı ayrı deneyler tekrarlamak yerine BioSeq2Seq iki ana girdiden öğreniyor. Bunlardan biri, hemen tüm hücrelerde aynı olan DNA dizisidir. Diğeri ise RNA polimerazın DNA üzerinde nerede ve hangi yönde aktif olarak hareket ettiğini bildiren bir run-on dizileme testinin verileridir. Bu test, belirli bir hücre tipinde genomun hangi bölümlerinin kullanıldığının canlı bir anlık görüntüsünü yakalar. Bu iki kaynağı birleştirerek model, biyologların genellikle ayrı deneylerle ölçtüğü çok çeşitli özellikleri tahmin edebilir.

Model genomdaki desenleri nasıl görüyor

BioSeq2Seq, başlangıçta dil modellerinde kullanılan bir sinir ağı türü olan dönüştürücü (transformer) mimarisine dayanır. Burada “dil”, DNA’daki baz dizisi ile kromozom boyunca görülen transkripsiyon sinyali desenidir. Model önce hem DNA’yı hem de run-on sinyallerini sayısal özelliklere dönüştürür ve ardından 100.000’den fazla DNA harfi boyunca uzak bölgeleri bağlayabilen dikkat (attention) katmanları kullanır. Bu uzun bakış açısı, güçlendiriciler (enhancer) gibi kontrol elemanlarının düzenledikleri genlerden uzak konumlarda etkili olabilmeleri açısından önemlidir. Öğrenilen bu desenlerden model, histon proteinlerinde aktive edici veya susturucu etiketlerin nerede belireceği, transkripsiyonun nerede başlayıp bittiği ve belirli proteinlerin nerelere bağlanma eğiliminde olduğu gibi genom boyunca hassas aralıklı tahminler üretir.

Birçok hücre, doku ve türde test etme

Araştırmacılar BioSeq2Seq’i çoğunlukla bir insan kan kanseri hücre hattından elde edilen verilerle eğittiler ve sonra onu birçok farklı bağlamda zorladılar. Bunlar birkaç insan hücre tipi, fare ve at karaciğeri ile meyve sineği yumurtalığı içeriyordu. On tür histon işaretinin tamamında modelin tahminleri, özellikle aktif genlerle ilişkilendirilen işaretler için, deneysel ölçümlerle yakından eşleşti. Ayrıca gen başlangıç bölgeleri ve promotörler ile güçlendiriciler çevresindeki bölgelerde de iyi performans gösterdi; buralar gen kontrolünün en yoğun olduğu alanlardır. Daha basit istatistiksel modeller veya daha az veri türü kullanan önceki araçlarla karşılaştırıldığında BioSeq2Seq, histon işaretleri için doğrulukta ortalama %14’ten fazla iyileşme sağladı ve bunu bir kerede tüm işaretleri tahmin ederek (tek tek değil) çok daha hızlı yaptı.

Figure 2. Katmanlı yapay zeka adımları, DNA ve transkripsiyon sinyallerini birleştirip farklı düzenleyici işaretlerin ve bölgelerin nerede ortaya çıkacağını tahmin eder.
Figure 2. Katmanlı yapay zeka adımları, DNA ve transkripsiyon sinyallerini birleştirip farklı düzenleyici işaretlerin ve bölgelerin nerede ortaya çıkacağını tahmin eder.

Anahtar anahtarlar, gen aktivitesi ve protein ayak izleri bulmak

Histon işaretlerinin ötesinde, model üç diğer büyük görevde test edildi. İlk olarak, model sürekli sinyal tahminlerini özel bir istatistiksel tepe çağırıcıyla (peak caller) zirvelere dönüştürerek transkripsiyon başlama bölgeleri, yalıtıcılar (insulator), poli(A) bölgeleri ve tüm gen gövdeleri gibi işlevsel elemanları tanımladı. Başlama bölgeleri ve gen gövdeleri için hem doğruluk hem de geri çağırma (recall) açılarından yüksek skorlar elde etti ve aktif düzenleyici bölgeleri tespit etmek için yaygın şekilde kullanılan bir yöntemi geride bıraktı. İkinci olarak, BioSeq2Seq sadece yüksek/ düşük değil, tam gen ifadeleri profillerini tahmin etti ve çıktılarına dayanan basit bir sınıflandırıcı, çok daha fazla deneysel girdiye dayanan önde gelen birkaç modeli yendi. Üçüncü olarak, aynı çerçeveyi kullanarak yazarlar doksan farklı transkripsiyon faktörü için bağlanma bölgelerini tahmin edecek şekilde sistemi eğitti; açık kromatin verisi kullanan önde gelen bir yöntemle benzer performansa ulaştı ve tek bir paylaşılan model kullanırken en zor faktörlerde bile iyileşme gösterdi.

Genomları incelemek için bunun anlamı

DNA dizisi ile tek bir transkripsiyon testinin gen kontrolünün birçok katmanıyla nasıl ilişkili olduğunu öğrenerek BioSeq2Seq, düzinelerce ayrı deney yürütmeye pratik bir alternatif sunuyor. Araştırmacıların yalnızca run-on verisi ve bir referans genomun bulunduğu yeni hücre tiplerinde, dokularda ve hatta türlerde histon işaretlerini, düzenleyici elemanları, gen aktivitesini ve protein bağlanmasını çıkarabilmesine olanak tanıyor. Bir popüler okuyucu için temel mesaj şu: dikkatle seçilmiş bir deney, güçlü bir öğrenme sistemiyle birleştirildiğinde artık pahalı testler takımının yerini alabilir ve gen düzenlemesinin büyük ölçekli çalışmaları daha fazla laboratuvar ve biyolojik soru için ulaşılabilir kılar.

Atıf: Zhang, Z., Fan, X., Zhong, J. et al. An end-to-end generalizable deep learning framework to comprehensively analyze transcriptional regulation. Nat Commun 17, 4708 (2026). https://doi.org/10.1038/s41467-026-70070-6

Anahtar kelimeler: gen düzenlemesi, derin öğrenme, genom anotasyonu, transkripsiyon, epigenomik