Clear Sky Science · tr

Hiyerarşik yorumlanabilir bir transformer kullanarak enzim komisyon numaralarının güvenilir tahmini

· Dizine geri dön

Enzim görevlerini tahmin etmenin önemi

Her canlı hücre, enzim adı verilen sayısız küçük kimyasal makineyle işler. Her enzimin belirli bir “görevi” vardır ve bu görev, posta adresine benzer dört bölümlük bir kod olan Enzyme Commission (EC) numarası ile kodlanır. EC numaralarının doğru atanması metabolizmanın anlaşılması, yeni ilaçların tasarlanması, mikropların yakıt veya plastik alternatifleri üretmesi için mühendislik yapılması ve ekosistemlerin kimyasalları nasıl işlediğinin izlenmesi açısından çok önemlidir. Ancak enzim fonksiyonlarını deneysel olarak belirlemek yavaş ve maliyetlidir. Bu çalışma, protein dizilerinden EC numaralarını güvenilir şekilde tahmin edebilen ve her tahminin neden yapıldığını da açıklayan yeni bir yapay zeka modeli olan HIT-EC’yi tanıtıyor.

Figure 1
Figure 1.

Enzim görevleri için bir posta kodu sistemi

EC sistemi her enzime 1.1.1.37 gibi dört seviyeli bir kod atar. İlk rakam geniş bir sınıfı gösterir (örneğin elektron taşıyanlar veya grup transfer eden enzimler) ve sonraki rakamlar daha ayrıntılı reaksiyon özelliklerini tanımlar. Bu hiyerarşi güçlüdür ama zorlu bir tahmin problemi yaratır: modelin binlerce olası kod için tüm dört düzeyi doğru alması gerekir; bazı enzimler nadir olabilir veya veritabanlarında yalnızca kısmen açıklanmış olabilir (örneğin 3.5.-.-, ayrıntılı düzeylerin eksik olduğu durumlar). Mevcut bilgisayar yöntemleri ya 3B yapıyı, dizi benzerliğini ya da derin öğrenmeyi kullanır, ancak nadir enzimlerle başa çıkmakta zorlanma, kısmi etiketli verileri göz ardı etme ve genellikle neden böyle bir karar verdiğine dair az bilgi veren “kara kutu” davranışı sergileme eğilimindedir.

EC merdivenini izleyen dört katlı bir yapay zeka

HIT-EC (Hierarchical Interpretable Transformer for EC prediction), dört adımlı EC hiyerarşisini yansıtacak şekilde tasarlanmıştır. Ham protein dizisini alır ve her biri bir EC düzeyine odaklanan dört transformer katmanından geçirir. Yerel akışlar her düzeyi bir öncekiyle bağlayarak, ayrıntılı bir kararın (dördüncü rakam) daha geniş olandan (birinci ve ikinci rakamlar) tutarlı olmasını sağlar. Paralelde, küresel bir akış her adımda tüm dizi bağlamını görünür tutar. Model ayrıca eksik etiketli diziler üzerinde de eğitilebilir; eksik EC düzeylerini atlayan bir “masked loss” kullanarak bu dizileri atmak yerine yok sayar. Bu sayede HIT-EC, küratörlü veritabanlarındaki sadece kısmen anotlanmış büyük protein kesimlerinden öğrenebilir.

Rakipleri doğruluk ve hızda geride bırakmak

Yazarlar Swiss-Prot ve Protein Data Bank’tan yaklaşık 200.000 enzim ve 1.938 farklı EC numarasını içeren büyük, dikkatle filtrelenmiş bir veri kümesi topladı. Tekrarlanan ayrılma testlerinde HIT-EC, hem genel hem de sınıf başına F1 skorlarında (doğru tahminlerle yanlış alarmlar arasındaki dengeyi ölçer) üç önde gelen yöntemi (CLEAN, ECPICK ve DeepECtransformer) geride bıraktı. Özellikle 25 veya daha az bilinen örneğe sahip az temsil edilen EC kodlarında güçlüydü; önceki yöntemlerin sıkça başarısız olduğu alanlar. HIT-EC ayrıca eğitimin ardından Swiss-Prot’a eklenen yeni enzimlere ve Escherichia coli, Bacillus subtilis ve Mycobacterium tuberculosis gibi iyi incelenmiş suşları da içeren çeşitli bakterilerin tam genomlarına iyi genelleme yaptı. Karmaşıklığına rağmen model son derece verimliydi: standart bir GPU üzerinde bir proteini yaklaşık 38 milisaniyede işledi—daha yavaş benzerlik aramalarına veya çoklu model topluluklarına dayanan bazı rakiplere göre onlarca kat daha hızlı.

Figure 2
Figure 2.

Modelin “nerelere baktığını” görmek

Tahminlerini güvenilir kılmak için HIT-EC, her EC düzeyi kararını hangi amino asitlerin etkilediğini gösterecek şekilde tasarlandı. Yazarlar dikkat ağırlıklarını gradien bilgisiyle birleştiren bir yorumlama yolu oluşturarak her pozisyonun önemini puanladılar. Bu puanları iyi karakterize edilmiş enzim ailelerinde doğruladılar. Örneğin bir sitokrom P450 ailesinde (CYP106A2), HIT-EC oksijen bağlama ve hem bağlama bölgeleri gibi bilinen fonksiyonel motifleri vurguladı ve bir karşılaştırma modelinin kaçırdığı ince bir EXXR motifini tespit etti. Her üst düzey EC sınıfının klasik temsilcileri için—alkol dehidrogenaz, hekzokinaz ve karbonik anhidraz gibi—modelin önem puanları ders kitaplarındaki imza motiflerini ve substrat bağlama bölgelerini öne çıkardı. Bu yorumlamalar, modelin kararlarını tesadüfi korelasyonlar yerine anlamlı özelliklere dayandırdığına dair biyokimyasal “kanıt” sağlar.

Nadir ve yeni ortaya çıkan enzimler üzerine yol gösterme

Ekip ayrıca kirlilik temizliğinde önemli ancak az çalışılmış iki enzimi HIT-EC ile test etti: aromatik kirleticileri parçalaymada rol oynayan bir sitokrom P450 ve plastikle ilişkili molekülleri sindirmeye yardımcı olan Streptomyces’tan bir PET parçalayıcı hidrolaz. Her iki enzim de deneysel olarak karakterize edilmiş ancak resmi EC atamalarından yoksundu. HIT-EC beklenen EC numaralarını doğru tahmin etti ve yapısal ile biyokimyasal çalışmalardan bilinen motif kalıplarını ve katalitik kalıntıları vurguladı. Genel olarak çalışma, HIT-EC’nin yalnızca mevcut araçlardan daha doğru ve hızlı EC numarası atamakla kalmayıp, özellikle nadir fonksiyonlar için neden bir enzimin belirli bir kimyasal görevi gerçekleştirdiğine dair ışık tutabildiğini gösteriyor. Performans ve yorumlanabilirliğin bu birleşimi, genomik, biyoteknoloji ve çevre araştırmalarında büyük ölçekli, güvenilir enzim anotasyonu için umut verici bir motor yapıyor.

Atıf: Dumontet, L., Han, SR., Lee, J.H. et al. Trustworthy prediction of enzyme commission numbers using a hierarchical interpretable transformer. Nat Commun 17, 1146 (2026). https://doi.org/10.1038/s41467-026-68727-3

Anahtar kelimeler: enzim fonksiyon tahmini, biyolojide derin öğrenme, transformer modelleri, protein anotasyonu, biyoremediasyon enzimleri