Clear Sky Science · zh

在 KISTI 的全球科学数据中心进行串行飞秒晶体学数据处理

· 返回目录

为什么微小晶体需要强大的计算机

现代 X 射线激光可以通过对大量微小晶体发射超短、超亮的脉冲来拍摄蛋白质和其他分子的“分子电影”。这种称为串行飞秒晶体学的方法会产生大量图像,揭示分子在室温下的外观与动态。但问题是:一次实验就能产生数 TB 的数据,远超典型实验室电脑能迅速处理的规模。本文阐述了韩国国家数据中心——KISTI 的全球科学数据中心(GSDC)如何建立与测试以高效处理这些巨量数据,并总结了科研人员如何将原始图像快速转为三维结构的实用经验,避免长时间延迟。

Figure 1
Figure 1.

从激光闪光到结构快照

在串行飞秒晶体学中,X 射线自由电子激光(XFEL)以快速脉冲照射流动或排列的微小晶体。每个晶体仅被击中一次,产生一个“快照”衍射图样,随后被破坏。为重建分子的完整三维结构,科学家必须合并数十万到数百万张这样的快照。许多图像无效——有的根本没有信号,有的显示出多个重叠晶体。有效图像(“命中”)必须被检测、分类并转换为可合并的强度数据,以生成高质量的结构。在接近实时的情况下完成这些工作需要高性能计算,尤其当激光以每秒数十脉冲运行时。

面向 X 射线实验的国家级数据中心

KISTI 的全球科学数据中心(GSDC)作为国家级设施建立,用以服务从粒子物理到基因组学在内的数据密集型科学。在浦项加速器实验室的 XFEL(PAL-XFEL)进行的串行晶体学实验中,GSDC 运行三台专用服务器,配备数十个 CPU 核心、数百 GB 内存和高速并行存储系统。在 PAL-XFEL 的纳米晶体学站点进行实验时,衍射图像由快速 X 射线探测器采集并通过 10 Gbps 链路流式传输到 GSDC。一次 12–24 小时的实验可能产生几 TB 到接近十 TB 的数据。在 GSDC,用户远程登录,过滤掉无用帧,并运行专用软件——例如 CrystFEL 及其相关的索引程序——将原始图像转为精炼的结构数据。

Figure 2
Figure 2.

多少处理器有帮助,何时有效

作者使用三个先前采集的不同蛋白质数据集对 GSDC 系统进行了测试。首先,他们研究了随着并行使用更多 CPU 核心,处理速度如何提升。正如预期的那样,增加处理器确实缩短了索引图像所需的总时间,但并非严格按比例。将 CPU 核心从 10 增加到约 30–40 时收益明显,而之后增益逐渐减小。再往后,额外的核心带来了开销,并受到诸如内存带宽、读取大量小文件时的输入/输出速度以及众多并行任务之间协调的限制。这表明“更多核心”并不总是更好;存在一个使硬件高效运行且不成为瓶颈的最佳区间。

速度与完整性之间的权衡

接着,团队在相同计算平台上比较了四种广泛使用的索引算法——XDS、DirAx、MOSFLM 和 XGANDALF。一些方法(如 XDS 和 DirAx)整体更快,但能成功转化为有用衍射图样的图像比例较小。另一些方法(如 MOSFLM 和 XGANDALF)较慢,但能转化更多图像为可用数据,并且通常在最终合并数据集的统计质量上表现更好。作者还探讨了简单的输入选择如何同时影响速度与成功率:提高信噪比阈值或关闭多晶体索引会加快处理速度但降低可用图像数量;降低阈值或启用多晶体处理则相反。关键是,即使是探测器几何参数上的细微误差——例如探测器与样品之间的距离——也会使索引更容易失败并显著降低处理速度,因为软件会不断尝试并拒绝不正确的解。

对未来实验的意义

通过系统地测量硬件选择、软件算法和用户可控设置如何影响性能,这项研究把复杂的数据处理挑战转化为一套实用指南。对于计划在 PAL-XFEL 进行实验的科学家而言,研究指出了并行处理最有效的时机、哪些索引程序适合快速反馈而哪些适合追求最高数据质量,以及为什么精确校准探测器几何如此重要。作者得出结论:GSDC 已能实现高效处理并在某些情况下在数据采集过程中提供实时反馈,但随着重复率和数据集规模持续增长,还需要进一步扩展计算资源。对非专业读者来说,关键的信息是:制作分子的“电影”不仅是先进激光和探测器的胜利——同样关键的是设计良好的计算中心能否跟上数据洪流。

引用: Nam, K.H., Na, SH. Serial femtosecond crystallography data processing at the global science data hub center at KISTI. Sci Rep 16, 6786 (2026). https://doi.org/10.1038/s41598-026-36540-z

关键词: 串行飞秒晶体学, X 射线自由电子激光, 高性能计算, 数据处理, 蛋白质结构