Clear Sky Science · tr
scLong: tek hücre transkriptomiklerinde uzun menzilli gen bağlamını yakalamak için milyar parametreli bir temel model
Bilgisayarlara Hücrelerin Gizli Dilini Okumayı Öğretmek
Vücudunuzdaki her hücre, açılıp kapanan genlerin oluşturduğu hareketli bir kent gibidir. Modern tek hücre RNA sekanslaması artık her bir hücreyi ayrı ayrı dinleyebiliyor, ancak elde edilen sonuç sayıların bunaltıcı bir seli oluyor. Bu makale, eski yöntemlerin görmezden gelme eğiliminde olduğu zayıf sinyaller de dahil olmak üzere bu karmaşık gen etkinliği desenlerini anlamlandırmak üzere tasarlanmış devasa bir yapay zeka modeli olan scLong’u tanıtıyor. Modelin amacı, araştırmacıların hücrelerin genlerin kapatılmasına, ilaç eklenmesine veya hastalık süreçlerine nasıl tepki verdiğini anlamalarına yardımcı olmak.

Hücre Düzeyinde Gen Haritalarının Önemi
Geleneksel gen çalışmaları genellikle milyonlarca hücreyi karıştırır ve nadir ya da sıra dışı hücreleri ortalamaya gömer. Tek hücre teknikleri bunu değiştirerek her hücrenin gen etkinliğini ayrı ayrı ölçtü; bu sayede gizli hücre tipleri, hücreler arası ince iletişim ve bir hücrenin ne yapacağını belirleyen ayrıntılı kontrol devreleri ortaya çıktı. Ancak bu tür verileri analiz etmek son derece zordur: her hücrede on binlerce gen için etkinlik seviyeleri ölçülebilir ve bunların birçoğu zar zor algılanır. Mevcut yapay zeka modelleri problemi yalnızca en yüksek sesli genlere odaklanarak basitleştirir; bu, hesaplamayı hızlandırırken hastalık, gelişim veya ilaç yanıtında kritik olabilecek birçok ince sinyali kaçırır.
Her Geni Dinleyen Yeni Bir Model
scLong bu zorluğun üstesinden kesip atmak yerine ölçek büyüterek geliyor. Yaklaşık 50’den fazla dokudan elde edilen yaklaşık 48 milyon insan hücresinin gen etkinliği profilleri üzerinde eğitilmiş milyar parametreli bir temel modeldir. Birkaç bin yüksek etkinlikli gene dikkat eden önceki yaklaşımların aksine, scLong nadiren veya zayıf ifade edilenler de dahil olmak üzere yaklaşık 28.000 geni aynı anda değerlendirir. Her gen için iki tür bilgi birleştirilir: bir hücrede ne kadar etkin olduğu ve genlerin rolleri ile ilişkileri hakkında uzmanlarca derlenen Gene Ontology’den gelen önceden bilinen bilgiler. Gen bağlantıları grafiği üzerinde çalışan özel bir ağ bu ön bilgiyi modelin ham ifade değerleriyle birlikte kullanabileceği kompakt temsillere dönüştürür.
Modelin Güç ile Verimlilik Arasındaki Dengesi
Her geni ayrıntılı olarak incelemek hesaplama açısından pahalı olduğundan scLong zekice iki bantlı bir tasarım kullanır. Her hücre içinde genler ifade güçlerine göre sıralanır. Genellikle ana biyolojik sinyali taşıyan en aktif genler daha büyük, daha güçlü bir dikkat (attention) modülünden geçirilir. Daha sessiz genler, düşük ya da sıfır ölçümler dahil, daha küçük ve hafif bir modüle yönlendirilir. Ardından tüm genler yeniden birleştirilir ve her genin diğer her gene etki etmesine izin veren başka bir dikkat katmanından geçirilir. Bu tasarım, zayıf sinyaller için daha ucuz ama yine de anlamlı temsiller saklarken en güçlü olanlar için daha fazla kapasite ayırmaya imkan verir. Ön eğitim sırasında sistem, gen etkinliği değerlerinin bir alt kümesini tekrar tekrar gizler ve bunları çevresel bağlamdan yeniden inşa etmeyi öğrenir; bu da genleri birbirine bağlayan desenleri keşfetmeye zorlar.

Modeli Gerçek Problemlerde Kullanmak
Eğitildikten sonra scLong geniş bir biyolojik soru yelpazesine uyarlanabilir. Yazarlar, belirli genler kapatıldığında veya değiştirdiğinde gen etkinliğinin nasıl değişeceğini, birlikte hareket edebilecek iki gen kombinasyonları dahil olmak üzere, modelin tahmin ettiğini gösteriyor. Ayrıca hücrelerin farklı kimyasallara maruz kaldıklarında nasıl tepki verdiklerini de öngörür; bu, ilaç keşfi ve güvenlik testleri için önemlidir. Kanser çalışmalarında scLong, tümör hücre hatlarının tek ilaçlara ve kombine edildiğinde daha etkili olabilecek ilaç çiftlerine nasıl yanıt vereceğini tahmin etmeye yardımcı olur; genellikle hem özel modelleri hem de diğer büyük temel modelleri geride bırakır. Tahminin ötesinde, scLong genler arasındaki düzenleyici ilişkilerin ağlarını çıkarabilir ve veriler farklı laboratuvarlarda veya farklı cihazlarda toplandığında ortaya çıkan teknik bozulmaları düzeltebilir.
Bu, Gelecek Tıp ve Araştırma İçin Ne Anlama Geliyor
Basitçe söylemek gerekirse, scLong bilim insanlarına tek tek hücreler içindeki gen etkinliğinin sessiz veya nadiren kullanılan genleri atlamayan yüksek çözünürlüklü, bağlamdan haberdar bir haritasını sunuyor. Milyonlarca hücreden öğrenip mevcut biyolojik bilgileri dahil ederek, genler bozulduğunda, yeni ilaçlar tanıtıldığında veya hastalık süreçleri geliştiğinde hücrelerin nasıl tepki vereceğine dair daha doğru tahminler sunuyor. Bu, yeni tedavilerin aranmasını hızlandırabilir, daha kişiselleştirilmiş tedavi seçimlerini yönlendirebilir ve karmaşık gen ağlarının sağlık ve hastalığı nasıl kontrol ettiğine dair anlayışımızı keskinleştirebilir. Model büyük ve hesaplama açısından talepkar olsa da, güçlü, genel amaçlı yapay zeka sistemlerinin hücrelerimizin gizli işleyişini keşfetmede çok yönlü yol arkadaşları olarak hizmet ettiği bir geleceğe işaret ediyor.
Atıf: Bai, D., Mo, S., Zhang, R. et al. scLong: a billion-parameter foundation model for capturing long-range gene context in single-cell transcriptomics. Nat Commun 17, 2380 (2026). https://doi.org/10.1038/s41467-026-69102-y
Anahtar kelimeler: tek hücre transkriptomik, temel modeller, gen düzenlenmesi, ilaç yanıtı tahmini, gen ifadesi