Clear Sky Science · he

עיבוד נתוני גבישים סריאליים פמטושניים במרכז המאגר המדעי הגלובלי ב‑KISTI

· חזרה לאינדקס

למה גבישים זעירים צריכים מחשבים גדולים

לייזרי רנטגן מודרניים יכולים לצלם "סרטים מולקולריים" של חלבונים ומולקולות נוספות על‑ידי יריית פולסים קצרים ועמוסים בעוצמה לעבר אינספור גבישים זעירים. גישה זו, הנקראת גבישוּת פמטושנית סריאלית, מייצרת שפע של תמונות שמגלות כיצד מולקולות נראות ונעות בטמפרטורת החדר. אבל יש בעיה: ניסוי בודד יכול לייצר טרה‑בייטים של נתונים, הרבה יותר ממה שמחשב מעבדה טיפוסי יכול לעבד במהירות. המאמר הזה מסביר איך נבנה ונבדק מאגר הנתונים הלאומי של קוריאה, GSDC ב‑KISTI, כדי לעבד מערכי נתונים עצומים אלה ביעילות, ואילו לקחים מעשיים יכולים מדענים להחיל כדי לעבור מתמונות גולמיות למבנים תלת‑ממדיים בלי עיכובים ארוכים.

Figure 1
Figure 1.

מפיצוצי לייזר אל מצולמים של מבנה

בגבישוּת פמטושנית סריאלית, לייזר אלקטרונים חופשי של רנטגן (XFEL) יורה פולסים מהירים על זרמי גבישים מיקרוסקופיים או מערכים שלהם. כל גביש נפגע רק פעם אחת, ומפיק דגימת התאבכות יחידה לפני שמתכלה. כדי לשחזר את המבנה התלת‑ממדי המלא של המולקולה, יש לצרף מאות אלפים עד מיליוני דגימות אלה. תמונות רבות אינן שימושיות — חלקן חסרות אות, אחרות מציגות גבישים חופפים מרובים. יש לזהות תמונות שימושיות ("הצלחות"), למיין אותן ולהמיר אותן לנתוני עצימות שניתן למזג למבנה איכותי. עשיית כל זה בזמן כמעט אמת דורשת מחשוב ביצועים גבוהים, במיוחד כשהלייזר פועל בעשרות פולסים לשנייה.

מרכז נתונים לאומי לניסויי רנטגן

מרכז המאגר המדעי הגלובלי (GSDC) ב‑KISTI הוקם כמתקן בקנה מידה לאומי לשירות מדעים בעלי דרישות נתונים כבדות, מפיזיקת חלקיקים ועד גנום. עבור גבישוּת סריאלית ב‑PAL‑XFEL במפעל האצת פהאנג, GSDC מפעיל שלושה שרתים ייעודיים המצוידים בעשרות ליבות CPU, במאות גיגה‑בתים של זיכרון ובמערכת אחסון מקבילית מהירה. במהלך ניסויים בתחנת הננוגבישוּת של PAL‑XFEL, תמונות דיפרקציה נלקחות על גלאי רנטגן מהיר ומועברות ל‑GSDC דרך קישור במהירות 10 גיגה‑ביט לשנייה. ניסוי בודד של 12–24 שעות יכול לייצר מספר עד כמעט עשרה טרה‑בייט של נתונים. ב‑GSDC, משתמשים נכנסים מרחוק, מסננים פריימים שאינם שימושיים, ומריצים תוכנה מיוחדת — כגון CrystFEL ותוכניות אינדקסציה נלוות — כדי להפוך תמונות גולמיות לנתוני מבנה מעובדים.

Figure 2
Figure 2.

כמה מעבדים עוזרים, ומתי

המחברים בחנו את מערכת GSDC באמצעות שלוש קבוצות נתונים שנאספו קודם לכן מחלבונים שונים. קודם כל, הם בדקו עד כמה מהירות העיבוד משתפרת כאשר משתמשים ביותר ליבות CPU במקביל. כצפוי, שימוש בליבות רבות יותר קיצר את הזמן הכולל הנדרש לאינדקסציה של תמונות, אך לא באופן פרופורציונלי מושלם. מעבר מ‑10 לכ‑30–40 ליבות נתן שיפורים משמעותיים, ולאחר מכן התגובות התמעטו. מעבר לנקודה זו, ליבות נוספות יצרו עומס יתר והוגבלו על ידי גורמים כמו רוחב פס הזיכרון, מהירות קלט/פלט בעת קריאת קבצים קטנים רבים והתיאום בין משימות מקבילות רבות. זה מבהיר כי "יותר ליבות" אינו תמיד עדיף; יש נקודת איזון שבה החומרה מנוצלת ביעילות מבלי ליצור צוואר בקבוק.

הפשרה בין מהירות לשלמות

לאחר מכן בקעו החוקרים ארבע אלגוריתמי אינדקסציה נפוצים — XDS, DirAx, MOSFLM ו‑XGANDALF — על אותה פלטפורמת מחשוב. חלק מהשיטות, כגון XDS ו‑DirAx, היו מהירות יותר באופן כללי אך זיהו חלק קטן יותר מהתמונות שניתן היה להמיר בהצלחה לדגמי דיפרקציה שימושיים. אחרות, כמו MOSFLM ו‑XGANDALF, היו איטיות יותר אך המירו יותר תמונות לנתונים ישימים ובדרך כלל הפיקו איכות סטטיסטית טובה יותר במאגר הממוזג הסופי. המחברים גם חקרו כיצד בחירות קלט פשוטות משפיעות הן על המהירות והן על שיעור ההצלחה: העלאת סף יחס אות‑רעש או כיבוי אינדקסציה של רב‑גבישים האיצה את העיבוד אך הקטינה את מספר התמונות השמישות; הורדת הסף או הפעלת טיפול ברב‑גבישים עשו את ההפך. באופן מכריע, אפילו שגיאות קטנות בגיאומטריית הגלאי — כגון המרחק בין הגלאי לדגימה — גרמו לכישלון אינדקסציה בתדירות גבוהה יותר ולעיבוד איטי בהרבה, מכיוון שהתוכנה המשיכה לנסות ולדחות פתרונות שגויים.

מה זה אומר לניסויים עתידיים

על‑ידי מדידה שיטתית כיצד בחירות חומרה, אלגוריתמים תוכנה והגדרות בשליטת המשתמש משפיעים על הביצועים, המחקר הזה הופך את אתגר ניהול הנתונים המורכב לקבוצת קווים מנחים מעשיים. עבור מדענים המתכננים ניסויי PAL‑XFEL, הוא מצביע מתי עיבוד מקבילי הוא היעיל ביותר, אילו תוכניות אינדקסציה מתאימות למשוב מהיר לעומת מקסימום איכות נתונים, ולמה כיול מדויק של גיאומטריית הגלאי כל כך חשוב. המחברים מסכמים כי GSDC כבר מאפשר עיבוד יעיל ולפעמים משוב בזמן אמת במהלך איסוף הנתונים, אך יהיה צורך בהרחבת משאבי המחשוב ככל שקצב החזרות וגודל מערכי הנתונים ימשיכו לגדול. עבור הקוראים שאינם מומחים, המסר המרכזי הוא שעשיית "סרטים" של מולקולות היא לא רק הישג של לייזרים וגלאים מתקדמים — היא תלויה גם במרכזי מחשוב מתוכננים היטב שיכולים לעמוד בגיבוי הנתונים.

ציטוט: Nam, K.H., Na, SH. Serial femtosecond crystallography data processing at the global science data hub center at KISTI. Sci Rep 16, 6786 (2026). https://doi.org/10.1038/s41598-026-36540-z

מילות מפתח: גבישים סריאליים פמטושניים, לייזר אלקטרונים חופשי של רנטגן, מחשוב ביצועים גבוהים, עיבוד נתונים, מבנה חלבון