Clear Sky Science · pt
Processamento de dados de cristalografia femtossegundo serial no centro global de dados científicos do KISTI
Por que cristais minúsculos precisam de computadores grandes
Lasers de raios X modernos podem capturar “filmes moleculares” de proteínas e outras moléculas ao disparar pulsos ultracurtos e ultrabrilhantes em uma enorme quantidade de cristais minúsculos. Essa abordagem, chamada cristalografia femtossegundo serial, produz uma enxurrada de imagens que revelam como as moléculas são e se movem em temperatura ambiente. Mas há um problema: um único experimento pode gerar terabytes de dados, muito mais do que um computador de laboratório típico consegue manipular rapidamente. Este artigo explica como o hub nacional de dados da Coreia, o GSDC no KISTI, foi construído e testado para processar esses grandes conjuntos de dados de forma eficiente, e quais lições práticas os cientistas podem aplicar para ir de imagens brutas a estruturas 3D sem atrasos longos. 
De flashes do laser a instantâneos de estrutura
Na cristalografia femtossegundo serial, um laser de elétrons livres de raios X (XFEL) dispara pulsos rápidos em fluxos ou matrizes de cristais microscópicos. Cada cristal é atingido apenas uma vez, produzindo um único padrão de difração “instantâneo” antes de ser destruído. Para reconstruir a estrutura tridimensional completa da molécula, os cientistas precisam combinar centenas de milhares a milhões desses instantâneos. Muitas imagens são inúteis — algumas não contêm sinal, outras mostram múltiplos cristais sobrepostos. Imagens úteis (“hits”) precisam ser detectadas, classificadas e convertidas em dados de intensidade que podem ser mesclados em uma estrutura de alta qualidade. Fazer isso em algo próximo ao tempo real exige computação de alto desempenho, especialmente quando o laser opera a dezenas de pulsos por segundo.
Um hub nacional de dados para experimentos com raios X
O Global Science Data hub Center (GSDC) no KISTI foi criado como uma instalação em escala nacional para atender ciências intensivas em dados, da física de partículas à genômica. Para cristalografia serial no XFEL do Laboratório de Aceleradores de Pohang (PAL‑XFEL), o GSDC opera três servidores dedicados equipados com dezenas de núcleos de CPU, centenas de gigabytes de memória e um sistema de armazenamento paralelo de alta velocidade. Durante experimentos na estação de nanocristalografia do PAL‑XFEL, imagens de difração são coletadas em um detector rápido de raios X e transmitidas ao GSDC por um link de 10 gigabits por segundo. Um único experimento de 12–24 horas pode gerar de vários até quase dez terabytes de dados. No GSDC, os usuários acessam remotamente, filtram quadros não úteis e executam softwares especializados — como CrystFEL e seus programas de indexação associados — para transformar imagens brutas em dados estruturais refinados. 
Quantos processadores ajudam, e quando
Os autores testaram o sistema do GSDC usando três conjuntos de dados coletados anteriormente de diferentes proteínas. Primeiro, eles investigaram como a velocidade de processamento melhora quando mais núcleos de CPU são usados em paralelo. Como esperado, usar mais processadores reduziu o tempo total necessário para indexar imagens, mas não de forma perfeitamente proporcional. Passar de 10 para cerca de 30–40 núcleos de CPU proporcionou ganhos fortes, após os quais os benefícios diminuíram. Além desse ponto, núcleos adicionais acrescentaram sobrecarga e foram limitados por fatores como largura de banda de memória, velocidade de entrada/saída ao ler muitos arquivos pequenos e coordenação entre muitas tarefas paralelas. Isso deixa claro que “mais núcleos” nem sempre é melhor; existe um ponto ideal em que o hardware é usado de forma eficiente sem se tornar um gargalo.
O trade‑off entre velocidade e completude
Em seguida, a equipe comparou quatro algoritmos de indexação amplamente usados — XDS, DirAx, MOSFLM e XGANDALF — na mesma plataforma de computação. Alguns métodos, como XDS e DirAx, foram mais rápidos no geral, mas identificaram uma fração menor de imagens que poderiam ser convertidas com sucesso em padrões de difração úteis. Outros, como MOSFLM e XGANDALF, foram mais lentos, mas converteram mais imagens em dados utilizáveis e, geralmente, produziram melhor qualidade estatística no conjunto de dados final mesclado. Os autores também exploraram como escolhas de entrada simples influenciam tanto a velocidade quanto a taxa de sucesso: elevar o limiar sinal‑ruído ou desativar a indexação multi‑cristal tornou o processamento mais rápido, mas reduziu o número de imagens utilizáveis; baixar o limiar ou habilitar o tratamento multi‑cristal teve o efeito oposto. Crucialmente, mesmo pequenos erros na geometria do detector — como a distância entre detector e amostra — fizeram com que a indexação falhasse com mais frequência e tornassem o processamento dramaticamente mais lento, porque o software continuava tentando e rejeitando soluções incorretas.
O que isso significa para experimentos futuros
Ao medir sistematicamente como escolhas de hardware, algoritmos de software e configurações controladas pelo usuário afetam o desempenho, este estudo transforma um desafio complexo de manejo de dados em um conjunto de diretrizes práticas. Para cientistas planejando experimentos no PAL‑XFEL, mostra quando o processamento paralelo é mais eficaz, quais programas de indexação são melhores para feedback rápido versus máxima qualidade de dados, e por que a calibração cuidadosa da geometria do detector é tão importante. Os autores concluem que o GSDC já possibilita processamento eficiente e, em alguns casos, feedback em tempo real durante a coleta de dados, mas que será necessária uma expansão adicional dos recursos computacionais à medida que as taxas de repetição e os tamanhos de conjuntos de dados continuem a crescer. Para não especialistas, a mensagem principal é que criar “filmes” de moléculas não é apenas um triunfo de lasers e detectores avançados — também depende criticamente de centros de computação bem projetados que consigam acompanhar a enxurrada de dados.
Citação: Nam, K.H., Na, SH. Serial femtosecond crystallography data processing at the global science data hub center at KISTI. Sci Rep 16, 6786 (2026). https://doi.org/10.1038/s41598-026-36540-z
Palavras-chave: cristalografia femtossegundo serial, laser de elétrons livres de raios X, computação de alto desempenho, processamento de dados, estrutura de proteínas