Clear Sky Science · tr

Seri femtosaniye kristallografi verisi işleme: KISTI’deki Küresel Bilim Veri Merkezi

· Dizine geri dön

Neden küçük kristallere büyük bilgisayarlar gerekir

Modern X-ışını lazerleri, ultra-kısa, ultra-parlak atımlarla sayısız küçük kristale nişan alarak proteinlerin ve diğer moleküllerin “moleküler filmlerini” çekebilir. Seri femtosaniye kristallografisi olarak adlandırılan bu yöntem, moleküllerin oda sıcaklığında nasıl göründüğünü ve hareket ettiğini ortaya çıkaran çok sayıda görüntü üretir. Ancak bir sorun vardır: tek bir deney terabaytlarca veri üretebilir; bu da tipik bir laboratuvar bilgisayarının hızla başa çıkabileceğinden çok daha fazladır. Bu makale, Kore’nin ulusal veri merkezi KISTI’deki GSDC’nin bu devasa veri setlerini verimli şekilde işlemek için nasıl kurulduğunu ve test edildiğini ve ham görüntülerden 3B yapılara uzun gecikmeler olmadan ulaşmak için bilim insanlarının kullanabileceği pratik dersleri açıklar.

Figure 1
Figure 1.

Lazer flaşlarından yapı anlarına

Seri femtosaniye kristallografide, bir X-ışını serbest elektron lazeri (XFEL) mikroskobik kristal akışlarına veya dizilerine hızlı atımlar gönderir. Her kristal yalnızca bir kez vurulur ve yok olmadan önce tek bir “anlık” kırınım deseni üretir. Molekülün tam üç boyutlu yapısını yeniden oluşturmak için bilim insanlarının yüz binlerce ila milyonlarca bu anlığı birleştirmesi gerekir. Birçok görüntü işe yaramaz—bazılarında sinyal yoktur, bazılarında birden fazla örtüşen kristal görülür. Yararlı görüntülerin (“hit”ler) tespiti, sıralanması ve yoğunluk verilerine dönüştürülmesi gerekir; bunlar daha sonra yüksek kaliteli bir yapıya birleştirilebilir. Lazer saniyede onlarca atım hızında çalışırken bunu neredeyse gerçek zamanlı yapabilmek yüksek performanslı hesaplama gerektirir.

X-ışını deneyleri için ulusal veri merkezi

KISTI’deki Küresel Bilim Veri Merkezi (GSDC), parçacık fiziğinden genomik veriye kadar veri yoğun bilimlere hizmet veren ulusal ölçekli bir tesis olarak kuruldu. Pohang Hızlandırıcı Laboratuvarı XFEL (PAL-XFEL) için seri kristallografide GSDC, düzinelerce CPU çekirdeği, yüzlerce gigabayt bellek ve yüksek hızlı paralel depolama sistemiyle donatılmış üç adanmış sunucu işletir. PAL-XFEL’in nanokristallografi istasyonunda deneyler sırasında kırınım görüntüleri hızlı bir X-ışını detektöründe toplanır ve 10 gigabit/s bağlantı üzerinden GSDC’ye aktarılır. Tek bir 12–24 saatlik deney birkaç terabayttan neredeyse on terabayta kadar veri üretebilir. GSDC’de kullanıcılar uzaktan giriş yapar, işe yaramayan kareleri filtreler ve ham görüntüleri rafine yapısal verilere dönüştürmek için CrystFEL ve ilişkilendirilmiş indeksleme programları gibi özel yazılımlar çalıştırır.

Figure 2
Figure 2.

Kaç işlemci ne işe yarar, ve ne zaman

Yazarlar, farklı proteinlerden daha önce toplanmış üç veri setini kullanarak GSDC sistemini teste tabi tuttular. Önce, daha fazla CPU çekirdeği paralel kullanıldığında işlem hızının ne kadar iyileştiğini sordular. Beklendiği gibi, daha fazla işlemci kullanmak görüntülerin indekslenmesi için gereken toplam zamanı azalttı, ancak bu tam orantılı olmadı. 10’dan yaklaşık 30–40 CPU çekirdeğine çıkmak güçlü kazançlar sağladı; bundan sonra faydalar azaldı. Bu noktadan sonra ek çekirdekler ek yük getirdi ve bellek bant genişliği, birçok küçük dosyayı okurken giriş/çıkış hızı ve paralel görevlerin koordinasyonu gibi sınırlamalar nedeniyle engellendi. Bu, “daha fazla çekirdek” her zaman daha iyi olmadığı; donanımın darboğaz yaratmadan verimli kullanıldığı bir denge noktası bulunduğu anlamına gelir.

Hız ile bütünlük arasındaki denge

Ardından ekip, aynı hesaplama platformunda dört yaygın indeksleme algoritmasını—XDS, DirAx, MOSFLM ve XGANDALF—karşılaştırdı. XDS ve DirAx gibi bazı yöntemler genel olarak daha hızlıydı ancak işe yarar kırınım desenlerine dönüştürülebilecek daha küçük bir görüntü payını tanımladılar. MOSFLM ve XGANDALF gibi diğerleri daha yavaştı fakat daha fazla görüntüyü kullanılabilir veriye dönüştürdüler ve genelde nihai birleştirilmiş veri setinde daha iyi istatistiksel kalite ürettiler. Yazarlar ayrıca basit giriş tercihleriinin hem hız hem de başarı oranını nasıl etkilediğini incelediler: sinyal-gürültü eşik değerini yükseltmek veya çoklu kristal indekslemeyi kapatmak işlemi hızlandırdı ancak kullanılabilecek görüntü sayısını azalttı; eşiği düşürmek veya çoklu kristal işlemi etkinleştirmek ters etki yaptı. Kritik olarak, detektör geometrisindeki—örneğin detektör ile örnek arasındaki mesafe gibi—küçük hatalar bile indekslemenin daha sık başarısız olmasına ve işlemin dramatik şekilde yavaşlamasına yol açtu; çünkü yazılım yanlış çözümleri denemeye ve reddetmeye devam etti.

Gelecek deneyler için çıkarımlar

Donanım seçimlerinin, yazılım algoritmalarının ve kullanıcı tarafından kontrol edilen ayarların performansı nasıl etkilediğini sistematik olarak ölçerek bu çalışma karmaşık bir veri işleme zorluğunu pratik kılavuzlara dönüştürüyor. PAL-XFEL deneyleri planlayan bilim insanları için çalışma, paralel işlemenin ne zaman en etkili olduğunu, hangi indeksleme programlarının hızlı geri bildirim için hangi programların maksimum veri kalitesi için daha uygun olduğunu ve detektör geometrisinin dikkatli kalibrasyonunun neden bu kadar önemli olduğunu gösteriyor. Yazarlar, GSDC’nin zaten verimli işlemeye ve bazı durumlarda veri toplama sırasında gerçek zamanlı geri bildirime olanak sağladığını, ancak tekrarlama oranları ve veri seti boyutları büyümeye devam ettikçe hesaplama kaynaklarının daha da genişletilmesi gerektiğini sonuç olarak belirtiyorlar. Uzman olmayanlar için temel mesaj şudur: moleküllerin “filmlerini” yapmak sadece gelişmiş lazerlerin ve detektörlerin başarısı değil—aynı zamanda veri seliyle başa çıkabilecek iyi tasarlanmış hesaplama merkezlerine de kritik derecede bağlıdır.

Atıf: Nam, K.H., Na, SH. Serial femtosecond crystallography data processing at the global science data hub center at KISTI. Sci Rep 16, 6786 (2026). https://doi.org/10.1038/s41598-026-36540-z

Anahtar kelimeler: seri femtosaniye kristallografi, X-ışını serbest elektron lazeri, yüksek performanslı hesaplama, veri işleme, protein yapısı