Clear Sky Science · ru

Обработка данных серийной фемтосекундной кристаллографии в глобальном центре научных данных KISTI

· Назад к списку

Почему крошечным кристаллам нужны большие компьютеры

Современные рентгеновские лазеры позволяют снимать «молекулярные фильмы» белков и других молекул, выпуская ультракороткие, крайне яркие импульсы на бесчисленное множество крошечных кристаллов. Этот подход, называемый серийной фемтосекундной кристаллографией, порождает поток изображений, показывающих, как молекулы выглядят и движутся при комнатной температуре. Но есть загвоздка: один эксперимент может сгенерировать терабайты данных — гораздо больше, чем способен быстро обработать обычный лабораторный компьютер. В этой статье объясняется, как был создан и протестирован национальный центр обработки данных GSDC при KISTI для эффективной обработки таких огромных наборов данных и какие практические выводы учёные могут использовать, чтобы перейти от сырых изображений к 3D‑структурам без долгих задержек.

Figure 1
Figure 1.

От вспышек лазера к моментальным структурам

В серийной фемтосекундной кристаллографии свободно‑электронный рентгеновский лазер (XFEL) испускает быстрые импульсы в потоки или массивы микрокристаллов. Каждый кристалл подвергается единственному попаданию, дающему одно «моментальное» дифракционное изображение, после чего кристалл разрушается. Для восстановления полной трёхмерной структуры молекулы учёные должны объединить сотни тысяч или даже миллионы таких снимков. Многие изображения бесполезны — на некоторых нет сигнала, другие показывают пересекающиеся кристаллы. Полезные кадры («хиты») нужно обнаружить, отсортировать и преобразовать в данные об интенсивности, которые затем можно объединить в высококачественную структуру. Выполнение этого близко к режиму реального времени требует высокопроизводительных вычислений, особенно когда лазер работает с десятками импульсов в секунду.

Национальный центр данных для рентгеновских экспериментов

Глобальный центр научных данных (GSDC) при KISTI создан как объект национального масштаба для обслуживания наук с интенсивными данными — от физики частиц до геномики. Для серийной кристаллографии на XFEL в Поханге (PAL‑XFEL) GSDC эксплуатирует три выделенных сервера, оснащённых десятками ядер CPU, сотнями гигабайт оперативной памяти и высокоскоростной параллельной системой хранения. Во время экспериментов на нанокристаллографической станции PAL‑XFEL дифракционные изображения фиксируются быстрым рентгеновским детектором и передаются в GSDC по каналу на 10 гигабит в секунду. Один 12–24‑часовой эксперимент может генерировать от нескольких до почти десяти терабайт данных. В GSDC пользователи подключаются удалённо, отфильтровывают неинформативные кадры и запускают специализированное ПО — например CrystFEL и сопутствующие программы индексации — чтобы превратить сырые изображения в уточнённые структурные данные.

Figure 2
Figure 2.

Сколько процессоров помогают и когда

Авторы протестировали систему GSDC, используя три заранее собранных набора данных для разных белков. Сначала они выясняли, как меняется скорость обработки при параллельном использовании большего числа ядер CPU. Как и ожидалось, увеличение числа процессоров сокращало общее время индексации изображений, но не пропорционально. Переход от 10 до примерно 30–40 ядер давал существенный выигрыш, после чего эффект уменьшался. За этой точкой дополнительные ядра создавали накладные расходы и сдерживались ограничениями, такими как пропускная способность памяти, скорость ввода/вывода при чтении большого числа мелких файлов и координация множества параллельных задач. Это показывает, что «больше ядер» не всегда лучше; существует оптимальная зона, где аппаратные ресурсы используются эффективно без узких мест.

Компромисс между скоростью и полнотой

Далее команда сравнила четыре широко используемых алгоритма индексации — XDS, DirAx, MOSFLM и XGANDALF — на одной и той же вычислительной платформе. Некоторые методы, например XDS и DirAx, в целом работали быстрее, но находили меньшую долю изображений, которые можно было успешно превратить в полезные дифракционные паттерны. Другие, такие как MOSFLM и XGANDALF, были медленнее, но конвертировали больше изображений в пригодные данные и в целом давали лучшую статистическую качество в итоговом объединённом наборе. Авторы также изучили, как простые входные параметры влияют на скорость и долю успешных обработок: повышение порога сигнал/шум или отключение индексации мультикристаллов ускоряло процесс, но уменьшало число используемых кадров; понижение порога или включение обработки мультикристаллов давало обратный эффект. Критично, что даже небольшие ошибки в геометрии детектора — например, в расстоянии между детектором и образцом — приводили к частым сбоям индексации и значительному замедлению обработки, поскольку программы многократно пробовали и отклоняли неверные решения.

Что это значит для будущих экспериментов

Систематически измерив, как аппаратные решения, алгоритмы ПО и настройки, контролируемые пользователем, влияют на производительность, это исследование превращает сложную задачу обработки данных в набор практических рекомендаций. Для учёных, планирующих эксперименты на PAL‑XFEL, оно показывает, когда параллельная обработка наиболее эффективна, какие программы индексации подходят для быстрой обратной связи, а какие — для максимального качества данных, и почему столь важна точная калибровка геометрии детектора. Авторы приходят к выводу, что GSDC уже обеспечивает эффективную обработку и в ряде случаев позволяет получать обратную связь в реальном времени во время съёмки данных, но дальнейшее расширение вычислительных ресурсов потребуется по мере роста частоты повторения и объёмов наборов данных. Для неспециалистов главный вывод таков: создание «фильмов» молекул — это не только заслуга продвинутых лазеров и детекторов, но и критическая зависимость от грамотно спроектированных вычислительных центров, способных справляться с наплывом данных.

Цитирование: Nam, K.H., Na, SH. Serial femtosecond crystallography data processing at the global science data hub center at KISTI. Sci Rep 16, 6786 (2026). https://doi.org/10.1038/s41598-026-36540-z

Ключевые слова: серийная фемтосекундная кристаллография, свободно‑электронный рентгеновский лазер, высокопроизводительные вычисления, обработка данных, структура белка