Clear Sky Science · tr
Fonksiyonel genomikleri daha iyi modellemek için varyantlarla genomik dil modelinin ön-eğitimi
Bilgisayarlara DNA Dilini Okumayı Öğretmek
Her kişinin DNA’sı, boydan hastalık riskine kadar pek çok özelliği etkileyen milyonlarca küçük farklılık veya varyant içerir. Bilim insanları bu varyantların birçoğunun genlerin ne ölçüde açılıp kapandığını etkilediğini biliyor, ancak DNA harflerinden gen aktivitesine kadar olan bağlantıyı kurmak zor oldu. Bu çalışma, DNA’yı bir dil gibi ele alan ve yüz binlerce kişide gözlemlenen varyant desenlerini kullanarak belirli hücrelerde ve bireylerde genlerin davranışını daha iyi tahmin etmeyi amaçlayan yeni yapay zekâ modellerini tanıtıyor.

Neden DNA İnsan Dili Gibi Ele Alınabilir
Tıpkı kelimelerin çevresindeki cümleye göre farklı anlamlar kazanması gibi, DNA dizileri de genomik “bağlama” bağlı olarak farklı roller üstlenebilir. Düzenleyici bölgeler kontrol ettikleri genlerden uzak bir konumda bulunabilir ve aynı DNA parçası birden fazla biyolojik işleve katkıda bulunabilir. Yazarlar, bu uzun menzilli desenlerin doğal dilde görülen çokanlamlılık ve bağlam bağımlılığına benzediği fikrinden yola çıkarak, metin için geliştirilen sinir ağı mimarilerini kullanıp DNA “dilbilgisini” ve insan genetik varyasyonunu birlikte öğrenmeyi hedefliyorlar.
Gerçek İnsan Varyasyonlarından Bir Genomik Dil Modeli Oluşturmak
Araştırmacılar, hem insan referans genomu hem de yaklaşık 300.000 UK Biobank katılımcısından elde edilen 13 milyondan fazla varyant üzerinde eğitilen bir DNA dil modeli olan UKBioBERT’i yarattılar. Eğitim sırasında modele, bazı bazların gizlendiği ve bağlamdan tahmin edilmesi gereken değiştirilmiş DNA dizileri gösteriliyor; bu, bir cümlede eksik kelimeleri doldurmaya benziyor. Bu kendi-kendine denetimli süreç, modelin hangi dizi desenlerinin birlikte ortaya çıkma eğiliminde olduğunu ve varyantların bu desenleri nasıl değiştirdiğini içselleştirmesini sağlıyor. Ekip daha sonra modelin iç temsillerini, benzer bilinen işlevlere sahip genlerin dizilerinin bu öğrenilmiş uzayda birbirine yakın konumlanıp konumlanmadığını sorgulayarak test ediyor. Birkaç kümeleme ölçüsüne göre UKBioBERT, eğitim sırasında bu işlevler hakkında hiç bilgi verilmemiş olmasına rağmen gen işlevlerini önceki genomik modellerden daha belirgin şekilde ayırıyor.
Dizi Desenlerinden Hücrelerde ve İnsanlarda Gen Aktivitesine
DNA “dilini” öğrenmek, gerçek biyolojiyi, özellikle farklı hücre tiplerinde ve bireylerde genlerin açılma düzeyi olan gen ekspresyonunu açıklamaya yardımcı olmazsa faydasızdır. Yazarlar UKBioBERT’in dizi gömme (embedding)lerini DNA’dan gen aktivitesini tahmin eden mevcut derin öğrenme çerçevelerine entegre ediyorlar. Hücre hattı düzeyinde, zaten promotör ve enhancer dizilerini epigenetik sinyallerle birleştiren EPInformer adlı bir mimariyi geliştiriyorlar. UKBioBERT’in DNA gömme vektörleri ve gen fonksiyonlarının metin tabanlı ayrı tanımları eklenince, birkaç insan hücre hattında gen ekspresyonu tahminleri daha isabetli hale geliyor; tahmin edilen ve ölçülen değerler arasındaki korelasyonlar artıyor ve çapraz doğrulama bölmelerinde performans daha kararlı oluyor.
Kişiye Özel Tahminler ve Bir Genin Neden Tahmin Edilebilir Olduğu
Ekip daha zor bir göreve geçiyor: sadece tam genom dizilerine dayanarak bireylerin gen ekspresyonunu tahmin etmek. Önce UKBioBERT gömme vektörlerini geleneksel bir istatistiksel yöntemle kullanarak GTEx kohortundaki 41 temsilci gen için ekspresyonu tahmin ediyorlar. Performans, el ile tasarlanmış genetik özellikler kullanan güçlü temel yöntemlerle yarışıyor veya biraz gerisinde kalıyor ve ayarlı olmayan bir dizi modelinden çok daha iyi sonuç veriyor. İlginç şekilde, genler ifadelerinin ne kadar tahmin edilebilir olduğu açısından büyük farklılıklar gösteriyor. Bu varyasyon, kalıtım oranı gibi standart ölçütlerle iyi açıklanmıyor. Bunun yerine, bireyler arasında gen ekspresyon seviyelerinin daha net kümelere ayrıldığı genler—UKBioBERT’in gömme vektörlerinin yakalayabildiği desenler—daha tahmin edilebilir olma eğiliminde. Birçok farklı biyolojik işlevde rol oynayan genlerin yalnızca diziden tahmin edilmesi daha zor oluyor.

Birey Düzeyinde Daha Güçlü Tahminler İçin Modellerin Birleştirilmesi
Kişiye özel tahmini daha ileri taşımak için yazarlar UKBioBERT’i güçlü dizi-işlev modelleri Enformer ve Borzoi ile birleştirerek UKBioFormer ve UKBioZoi’yi oluşturuyorlar. Bu melezler, uzun menzilli dizi modellemeyi varyant-farkındalıklı gömme vektörleriyle birleştiriyor ve parametre tasarrufu sağlayan tekniklerle verimli şekilde inceltme (fine-tuning) yapılıyor. Aynı gen kümesi üzerinde UKBioFormer, gen ekspresyonu makul derecede tahmin edilebilir olan genler için önceki en iyi derin model (Performer) ve standart istatistiksel yaklaşımları sıkça geride bırakıyor. Ayrıca Avrupa kökenli bireylerle eğitilen modellerin Afrikalı Amerikalı bireylere uygulandığında daha iyi genelleme gösterdiğini belirtiyor; bu, ham dizi ve popülasyon varyantlarından öğrenmenin gruplar arasında paylaşılan düzenleyici mantığı yakalayabildiğini düşündürüyor.
Tek Bir Varyantın Gen Aktivitesini Nasıl Değiştirdiğini Görebilmek
UKBioFormer bir sinir ağı olduğundan, bireysel varyantların tahminler üzerindeki etkilerini ortaya çıkarmak için sorgulanabiliyor. Yazarlar, gradyan tabanlı yöntemler ve in-silico mutasyon deneyleri kullanarak belirli bazların değiştirilmesinin tahmini ekspresyonu nasıl etkilediğini tahmin ediyorlar. JUP adlı bir geni de içeren birkaç gen için model, bilinen düzenleyici varyantların (eQTL’ler) çoğunluğunun etki yönünü ve yaklaşık büyüklüğünü doğru biçimde çıkarıyor; nadir bazı varyantlar da dahil. Ayrıca bu varyantların etrafındaki yerel dizi motiflerini, düzenleyici proteinlerin bilinen bağlanma desenleriyle eşleşecek şekilde vurguluyor. Bu, modelin yalnızca genel ifade düzeylerine uymakla kalmayıp dizi motifleri, varyantlar ve gen düzenlemesi arasında mekanistik bağlantılar öğrendiğini gösteriyor.
Bu Çalışmanın Genomik ve Tıp İçin Anlamı
Bu çalışma, genomik dil modellerinin büyük insan varyant koleksiyonları üzerinde doğrudan eğitilmesinin, gen ekspresyonu tahmini ve varyant yorumlamasını iyileştiren daha zengin DNA temsilleri ürettiğini gösteriyor. Her gen yalnızca diziden tahmin edilemese de birleşik UKBioBERT–UKBioFormer çerçevesi, ekspresyon desenleri yapılandırılmış ve varyant kaynaklı olan genlerde özellikle iyi performans gösteriyor. Ayrıca hangi varyantların gen aktivitesini değiştirme olasılığının daha yüksek olduğunu pahalı deneyler yapmadan önce araştırmak için pratik bir yol sunuyor. Veri setleri daha çeşitli hale geldikçe ve çoklu gen eğitimi yöntemleri geliştikçe, bu tür modeller kişisel genomları moleküler özelliklerle ilişkilendirmede ve nihayetinde genetik etkili hastalıklar üzerine araştırmaları yönlendirmede önemli araçlar haline gelebilir.
Atıf: Liu, T., Zhang, X., Lin, J. et al. Pre-training genomic language model with variants for better modeling functional genomics. npj Artif. Intell. 2, 46 (2026). https://doi.org/10.1038/s44387-026-00103-4
Anahtar kelimeler: genomik dil modelleri, gen ekspresyonu tahmini, genetik varyantlar, fonksiyonel genomik, UK Biobank