Clear Sky Science · nl

Verwerking van serial femtoseconde-kristallografiegegevens bij het Global Science Data Hub Center van KISTI

· Terug naar het overzicht

Waarom kleine kristallen grote computers nodig hebben

Moderne röntgenlasers kunnen “moleculaire films” van eiwitten en andere moleculen maken door ultrakorte, ultrafelle pulsen op talloze piepkleine kristallen te schieten. Deze aanpak, serial femtoseconde-kristallografie genoemd, genereert een stortvloed aan beelden die laten zien hoe moleculen eruitzien en bewegen bij kamertemperatuur. Er is echter een maar: één experiment kan terabytes aan gegevens opleveren, veel meer dan een gemiddeld laboratoriumcomputer snel kan verwerken. Dit artikel beschrijft hoe het nationale datahub GSDC bij KISTI is opgezet en getest om deze enorme datasets efficiënt te verwerken, en welke praktische lessen wetenschappers kunnen gebruiken om van ruwe beelden naar 3D-structuren te komen zonder lange vertragingen.

Figure 1
Figure 1.

Van laserflitsen naar structurele snapshots

Bij serial femtoseconde-kristallografie vuurt een X-ray vrije-elektronenlaser (XFEL) snelle pulsen af op stromen of arrays van microscopische kristallen. Elk kristal wordt slechts één keer geraakt en produceert een enkele “snapshot” diffractiepatroon voordat het wordt vernietigd. Om de volledige driedimensionale structuur van het molecuul te reconstrueren, moeten wetenschappers honderden duizenden tot miljoenen van deze snapshots combineren. Veel beelden zijn onbruikbaar—sommige bevatten geen signaal, andere tonen meerdere overlappende kristallen. Nuttige beelden (“hits”) moeten worden gedetecteerd, gesorteerd en omgezet in intensiteitsgegevens die samengevoegd kunnen worden tot een hoogwaardig structureel resultaat. Dit in iets dat op realtime lijkt doen vereist high-performance computing, vooral wanneer de laser met tientallen pulsen per seconde werkt.

Een nationaal datahub voor röntgenexperimenten

Het Global Science Data hub Center (GSDC) bij KISTI werd opgezet als een faciliteit op nationale schaal om data-intensieve wetenschappen te bedienen, van deeltjesfysica tot genomica. Voor serial kristallografie bij de Pohang Accelerator Laboratory XFEL (PAL-XFEL) exploiteert GSDC drie speciale servers uitgerust met tientallen CPU-cores, honderden gigabytes aan geheugen en een hogesnelheids parallel opslag­systeem. Tijdens experimenten bij de nanokristallografiestation van PAL-XFEL worden diffractiebeelden verzameld met een snelle röntgendetector en via een 10-gigabit-per-seconde verbinding naar GSDC gestreamd. Een enkel experiment van 12–24 uur kan enkele tot bijna tien terabyte aan data genereren. Bij GSDC loggen gebruikers op afstand in, filteren niet‑bruikbare frames eruit en draaien gespecialiseerde software—zoals CrystFEL en de bijbehorende indexeringsprogramma’s—om ruwe beelden om te zetten in verfijnde structurele data.

Figure 2
Figure 2.

Hoeveel processors helpen, en wanneer

De auteurs zetten het GSDC-systeem op de proef met drie eerder verzamelde datasets van verschillende eiwitten. Eerst onderzochten ze hoe goed de verwerkingssnelheid verbetert wanneer meer CPU-cores parallel worden gebruikt. Zoals verwacht verminderde het gebruik van meer processors de totale tijd die nodig is om beelden te indexeren, maar niet op een perfect evenredige manier. Het opschalen van 10 naar ongeveer 30–40 CPU-cores gaf sterke winsten, waarna de voordelen afnamen. Daarbovenop voegde extra cores overhead toe en werden ze geremd door limieten zoals geheugenbandbreedte, in-/uitvoersnelheid bij het lezen van veel kleine bestanden en coördinatie tussen veel parallelle taken. Dit toont aan dat "meer cores" niet altijd beter is; er is een sweet spot waarin de hardware efficiënt wordt gebruikt zonder dat bottlenecks optreden.

De afweging tussen snelheid en volledigheid

Vervolgens vergeleek het team vier veelgebruikte indexeringsalgoritmen—XDS, DirAx, MOSFLM en XGANDALF—op hetzelfde platform. Sommige methoden, zoals XDS en DirAx, waren over het algemeen sneller maar identificeerden een kleiner aandeel beelden dat met succes in bruikbare diffractiepatronen kon worden omgezet. Andere, zoals MOSFLM en XGANDALF, waren trager maar zetten meer beelden om in bruikbare data en leverden doorgaans betere statistische kwaliteit in de uiteindelijke samengevoegde dataset. De auteurs onderzochten ook hoe eenvoudige invoerkeuzes zowel de snelheid als het slagingspercentage beïnvloeden: het verhogen van de signaal‑tegen‑ruis‑drempel of het uitschakelen van multi‑kristalindexering maakte verwerking sneller maar verminderde het aantal bruikbare beelden; het verlagen van de drempel of het inschakelen van multi‑kristalverwerking had het omgekeerde effect. Cruciaal is dat zelfs kleine fouten in de detectorgeometrie—zoals de afstand tussen detector en monster—er toe leidden dat het indexeren vaker faalde en de verwerking dramatisch vertraagde, omdat de software bleef proberen en onjuiste oplossingen verwierp.

Wat dit betekent voor toekomstige experimenten

Door systematisch te meten hoe hardwarekeuzes, softwarealgoritmen en door gebruikers gecontroleerde instellingen de prestaties beïnvloeden, verandert deze studie een complexe datahanteringsuitdaging in een set praktische richtlijnen. Voor wetenschappers die PAL‑XFEL-experimenten plannen, laat het zien wanneer parallelle verwerking het meest effectief is, welke indexeringsprogramma’s beter zijn voor snelle feedback versus maximale datakwaliteit, en waarom zorgvuldige kalibratie van de detectorgeometrie zo belangrijk is. De auteurs concluderen dat GSDC al efficiënte verwerking mogelijk maakt en in sommige gevallen realtime feedback tijdens gegevensverzameling ondersteunt, maar dat verdere uitbreiding van rekencapaciteit nodig zal zijn naarmate de herhalingssnelheden en datasetgroottes blijven toenemen. Voor niet‑experts is de kernboodschap dat het maken van “films” van moleculen niet alleen een triomf is van geavanceerde lasers en detectoren—het hangt ook kritisch af van goed ontworpen rekencentra die de datastroom bij kunnen houden.

Bronvermelding: Nam, K.H., Na, SH. Serial femtosecond crystallography data processing at the global science data hub center at KISTI. Sci Rep 16, 6786 (2026). https://doi.org/10.1038/s41598-026-36540-z

Trefwoorden: serial femtoseconde-kristallografie, X-ray vrije-elektronenlaser, high-performance computing, gegevensverwerking, eiwitstructuur