Clear Sky Science · ja
KISTIのグローバルサイエンスデータハブセンターにおける連続フェムト秒結晶構造解析データ処理
なぜ小さな結晶に大きなコンピュータが必要なのか
現代のX線レーザーは、超短時間で極めて強いパルスを無数の微小結晶に照射することで、タンパク質などの「分子ムービー」を撮影できます。連続フェムト秒結晶構造解析と呼ばれるこの手法は、室温で分子の形や動きを明らかにする多数の画像を生み出します。しかし問題が一つあります:単一の実験で生成されるデータ量はテラバイト単位にも及び、通常の研究室の計算機では迅速に処理できません。本論文は、韓国の国立データハブであるKISTIのGSDCがこれら巨大なデータセットを効率的に処理するためにどのように構築・検証されたか、そして生の画像から三次元構造への遅延を抑えて到達するために科学者が利用できる実用的な教訓を説明します。
レーザーパルスから構造スナップショットへ
連続フェムト秒結晶構造解析では、X線自由電子レーザー(XFEL)が微小な結晶の流れや配列に高速パルスを照射します。各結晶は一度だけ照射され、破壊される前に単一の「スナップショット」回折パターンを生成します。分子の完全な三次元構造を再構築するには、数十万から数百万に及ぶこれらのスナップショットを組み合わせる必要があります。多くの画像は役に立ちません——信号が全くないものや、複数の結晶が重なって写っているものがあります。有用な画像(「ヒット」)を検出・選別し、強度データへと変換して高品質な構造へと統合する必要があります。レーザーが毎秒数十ショットで稼働するような状況でこれをほぼリアルタイムに行うには、高性能な計算資源が不可欠です。
X線実験のための国立データハブ
KISTIのグローバルサイエンスデータハブセンター(GSDC)は、素粒子物理学からゲノミクスに至るデータ集約型科学にサービスを提供する国規模の施設として設置されました。Pohang Accelerator Laboratory XFEL(PAL‑XFEL)での連続結晶構造解析に対して、GSDCは多数のCPUコア、数百ギガバイトのメモリ、高速並列ストレージシステムを備えた3台の専用サーバを運用しています。PAL‑XFELのナノ結晶学ステーションでの実験中、回折画像は高速X線検出器で収集され、10ギガビット毎秒の回線でGSDCにストリーム配信されます。12〜24時間の単一実験で数テラバイトからほぼ十テラバイト近くのデータが生成されることがあります。GSDCでは、利用者がリモートでログインして非有用フレームを除外し、CrystFELやその関連するインデックスプログラムなどの専門ソフトウェアを実行して生画像を洗練された構造データに変換します。
どれだけのプロセッサが役立つか、そしてどの時点で
著者らは、異なるタンパク質から事前に収集された3つのデータセットを用いてGSDCシステムを試験しました。まず、並列でより多くのCPUコアを使ったときに処理速度がどれだけ改善するかを問いました。予想どおり、プロセッサ数を増やすと画像のインデックス付けに要する総時間は短縮されましたが、比例的に縮むわけではありませんでした。10コアから約30〜40コアへ増やすと大きな性能向上が得られましたが、その後は効果が漸減しました。その先では、追加のコアがオーバーヘッドを増やし、メモリ帯域幅や多数の小さなファイルを読み込む際の入出力速度、多数の並列タスク間の調整といった制約により性能が抑制されました。これは「コアを増やせば常に良い」というわけではなく、ハードウェアがボトルネックにならず効率的に使われる最適な点が存在することを明示します。
速度と完成度のトレードオフ
次に、著者らは同一の計算環境で広く使われる4つのインデックスアルゴリズム——XDS、DirAx、MOSFLM、XGANDALF——を比較しました。XDSやDirAxのような方法は全体として高速でしたが、有用な回折パターンへと変換できる画像の割合は小さめでした。一方、MOSFLMやXGANDALFは処理が遅めであるものの、より多くの画像を有用なデータへと変換し、最終的なマージデータセットで統計的品質が良好になる傾向がありました。著者らはまた、単純な入力設定が速度と成功率の両方にどう影響するかも調べました:信号対雑音比(S/N)閾値を上げたりマルチクリスタルのインデックスを無効にすると処理は速くなりますが使用可能な画像数は減ります。逆に閾値を下げたりマルチクリスタル処理を有効にするとより多くの画像が使えるようになります。重要な点として、検出器の幾何学的パラメータ(検出器と試料の距離など)に小さな誤差があってもインデックス付けが失敗しやすくなり、ソフトウェアが誤った解を繰り返し試しては棄却するため処理が劇的に遅くなることが示されました。
今後の実験への示唆
ハードウェアの選択、ソフトウェアアルゴリズム、利用者が制御する設定が性能にどう影響するかを体系的に測定することで、本研究は複雑なデータ処理の課題を実用的なガイドラインに変換しました。PAL‑XFELで実験を計画する科学者にとって、いつ並列処理が最も効果的か、迅速なフィードバック向けと最大限のデータ品質向けでどのインデックスプログラムが適しているか、そして検出器幾何学の慎重な校正がなぜ極めて重要かが示されています。著者らは、GSDCは既に効率的な処理を可能にし、場合によってはデータ収集中のリアルタイムフィードバックを実現しているが、繰り返し速度やデータセット規模が増大し続けるため計算資源のさらなる拡張が必要であると結論しています。非専門家にとっての重要なメッセージは、分子の“ムービー”を作ることは高度なレーザーや検出器の勝利だけではなく、データの洪水に追いつくことができるように設計された計算センターが決定的に重要である、という点です。
引用: Nam, K.H., Na, SH. Serial femtosecond crystallography data processing at the global science data hub center at KISTI. Sci Rep 16, 6786 (2026). https://doi.org/10.1038/s41598-026-36540-z
キーワード: 連続フェムト秒結晶構造解析, X線自由電子レーザー, 高性能計算, データ処理, タンパク質構造