Clear Sky Science · pl

Przetwarzanie danych z seryjnej krystalografii femtosekundowej w globalnym centrum danych naukowych GSDC w KISTI

· Powrót do spisu

Dlaczego maleńkie kryształy potrzebują dużych komputerów

Nowoczesne lasery rentgenowskie potrafią rejestrować „molekularne filmy” białek i innych cząsteczek, wyzwalając ultrakrótkie, ultrajasne impulsy na niezliczonych maleńkich kryształach. Podejście to, zwane seryjną krystalografią femtosekundową, generuje potok obrazów ukazujących wygląd i ruch cząsteczek w temperaturze pokojowej. Jest jednak haczyk: pojedyncze eksperymenty mogą wygenerować terabajty danych, znacznie więcej niż typowy komputer laboratoryjny jest w stanie szybko przetworzyć. Artykuł wyjaśnia, jak krajowe centrum danych Korei, GSDC w KISTI, zostało zbudowane i przetestowane do wydajnego przetwarzania takich ogromnych zbiorów danych oraz jakie praktyczne wnioski mogą wykorzystać naukowcy, aby przejść od surowych obrazów do struktur 3D bez długich opóźnień.

Figure 1
Figure 1.

Od błysków lasera do migawki struktury

W seryjnej krystalografii femtosekundowej rentgenowski laser wolnych elektronów (XFEL) wysyła szybkie impulsy w strumienie lub układy mikroskopijnych kryształów. Każdy kryształ jest trafiany tylko raz, dając pojedynczy „zrzut” wzoru dyfrakcyjnego, zanim zostanie zniszczony. Aby odtworzyć pełną trójwymiarową strukturę cząsteczki, naukowcy muszą połączyć setki tysięcy aż do milionów takich migawek. Wiele obrazów jest bezużytecznych — niektóre nie zawierają sygnału, inne pokazują nakładające się kryształy. Przydatne obrazy („trafienia”) trzeba wykryć, posortować i przekształcić w dane intensywności, które da się scalić w strukturę wysokiej jakości. Zrobienie tego w zbliżeniu do czasu rzeczywistego wymaga obliczeń wysokowydajnych, zwłaszcza gdy laser pracuje z częstotliwością dziesiątek impulsów na sekundę.

Krajowe centrum danych dla eksperymentów rentgenowskich

Global Science Data hub Center (GSDC) w KISTI powstało jako obiekt o zasięgu krajowym, obsługujący nauki intensywne pod względem danych, od fizyki cząstek po genomikę. Dla seryjnej krystalografii w Pohang Accelerator Laboratory XFEL (PAL‑XFEL), GSDC eksploatuje trzy dedykowane serwery wyposażone w dziesiątki rdzeni CPU, setki gigabajtów pamięci oraz szybki równoległy system pamięci masowej. Podczas eksperymentów w stacji nanokrystalografii PAL‑XFEL obrazy dyfrakcyjne są rejestrowane na szybkim detektorze rentgenowskim i przesyłane do GSDC łączyem o przepustowości 10 gigabitów na sekundę. Pojedynczy eksperyment trwający 12–24 godziny może wygenerować od kilku do prawie dziesięciu terabajtów danych. W GSDC użytkownicy logują się zdalnie, filtrują nieprzydatne klatki i uruchamiają specjalistyczne oprogramowanie — takie jak CrystFEL i powiązane programy indeksujące — aby przekształcić surowe obrazy w oczyszczone dane strukturalne.

Figure 2
Figure 2.

Ile procesorów pomaga i kiedy

Autorzy przetestowali system GSDC, używając trzech wcześniej zarejestrowanych zestawów danych z różnych białek. Najpierw sprawdzili, jak wzrasta szybkość przetwarzania przy równoległym użyciu większej liczby rdzeni CPU. Jak można było się spodziewać, większa liczba procesorów zmniejszyła łączny czas potrzebny na indeksowanie obrazów, ale nie proporcjonalnie do liczby rdzeni. Przejście od 10 do około 30–40 rdzeni CPU przyniosło znaczące korzyści, po czym zyski zaczęły słabnąć. Powyżej tego poziomu dodatkowe rdzenie wprowadzały narzut i były ograniczane przez czynniki takie jak przepustowość pamięci, prędkość wejścia/wyjścia przy odczycie wielu małych plików oraz koordynacja wielu równoległych zadań. To pokazuje, że „więcej rdzeni” nie zawsze znaczy lepiej; istnieje optymalny punkt, w którym sprzęt jest wykorzystywany efektywnie, bez tworzenia wąskich gardeł.

Komfort między szybkością a kompletnością

Następnie zespół porównał cztery powszechnie stosowane algorytmy indeksowania — XDS, DirAx, MOSFLM i XGANDALF — na tej samej platformie obliczeniowej. Niektóre metody, jak XDS i DirAx, były ogólnie szybsze, ale identyfikowały mniejszy odsetek obrazów, które dało się przekształcić w użyteczne wzory dyfrakcyjne. Inne, takie jak MOSFLM i XGANDALF, działały wolniej, ale konwertowały więcej obrazów na dane użyteczne i zwykle dawały lepszą jakość statystyczną końcowego scalonego zbioru. Autorzy zbadali także, jak proste wybory parametrów wpływają zarówno na szybkość, jak i wskaźnik sukcesu: podniesienie progu sygnału do szumu lub wyłączenie indeksowania wielokryształowego przyspieszało przetwarzanie, ale zmniejszało liczbę wykorzystanych obrazów; obniżenie progu lub włączenie obsługi wielokryształów działało odwrotnie. Kluczowe jest to, że nawet niewielkie błędy w geometrii detektora — na przykład w odległości między detektorem a próbką — powodowały częstsze niepowodzenia indeksowania i znaczne spowolnienie przetwarzania, ponieważ oprogramowanie wielokrotnie próbowało i odrzucało błędne rozwiązania.

Co to znaczy dla przyszłych eksperymentów

Systematycznie mierząc, jak wybory sprzętowe, algorytmy oprogramowania i ustawienia kontrolowane przez użytkownika wpływają na wydajność, badanie zamienia skomplikowane wyzwanie związane z obsługą danych w zestaw praktycznych wskazówek. Dla naukowców planujących eksperymenty w PAL‑XFEL pokazuje, kiedy przetwarzanie równoległe jest najskuteczniejsze, które programy indeksujące są lepsze do szybkiego sprzężenia zwrotnego, a które do maksymalnej jakości danych, oraz dlaczego tak ważna jest staranna kalibracja geometrii detektora. Autorzy dochodzą do wniosku, że GSDC już umożliwia wydajne przetwarzanie i w niektórych przypadkach sprzężenie zwrotne w czasie rzeczywistym podczas zbierania danych, lecz dalsza rozbudowa zasobów obliczeniowych będzie konieczna wraz ze wzrostem częstotliwości powtarzania impulsów i rozmiarów zbiorów danych. Dla nie‑specjalistów kluczowe przesłanie jest takie: tworzenie „filmów” molekuł to nie tylko triumf zaawansowanych laserów i detektorów — zależy ono równie mocno od dobrze zaprojektowanych centrów obliczeniowych, które nadążają za nawałem danych.

Cytowanie: Nam, K.H., Na, SH. Serial femtosecond crystallography data processing at the global science data hub center at KISTI. Sci Rep 16, 6786 (2026). https://doi.org/10.1038/s41598-026-36540-z

Słowa kluczowe: seryjna krystalografia femtosekundowa, rentgenowski laser wolnych elektronów, obliczenia wysokowydajne, przetwarzanie danych, struktura białka