Clear Sky Science · ar

معالجة بيانات البلورة على مقياس الفمتوثانية المتسلسلة في مركز المحور العالمي لبيانات العلم في KISTI

· العودة إلى الفهرس

لماذا البلورات الصغيرة تحتاج حواسيب كبيرة

يمكن لأجهزة الليزر الحديثة للأشعة السينية التقاط «أفلام جزيئية» للبروتينات وجزيئات أخرى عبر إطلاق نبضات فائقة القصر والفطاعة على عدد لا يحصى من البلورات الدقيقة. تُسمى هذه المقاربة البلورة المتسلسلة الفمتوثانية، وتنتج فيضاً من الصور التي تكشف كيف تبدو الجزيئات وتتحرّك في درجة حرارة الغرفة. لكن ثمة مشكلة: يمكن لتجربة واحدة أن تولّد تيرابايتات من البيانات، أكثر بكثير مما يمكن أن يتعامل معه حاسب مختبر عادي بسرعة. يوضح هذا المقال كيف بُني واختُبر المحور الوطني للبيانات في كوريا، GSDC في KISTI، لمعالجة مجموعات البيانات الضخمة هذه بكفاءة، وما الدروس العملية التي يمكن للعلماء تطبيقها للانتقال من الصور الخام إلى البنى الثلاثية الأبعاد دون تأخيرات طويلة.

Figure 1
Figure 1.

من ومضات الليزر إلى لقطات البنية

في البلورة المتسلسلة الفمتوثانية، يطلق ليزر الإلكترون الحر للأشعة السينية (XFEL) نبضات سريعة على تيارات أو مصفوفات من البلورات المجهرية. تُصاب كل بلورة مرة واحدة فقط، فتنتج نمط حيود «لقطة» واحدة قبل أن تدمر. لاستعادة البنية الثلاثية الأبعاد الكاملة للجزيء، يجب على العلماء دمج مئات الآلاف إلى ملايين من هذه اللقطات. كثير من الصور غير مفيدة—بعضها لا يحتوي على إشارة، وبعضها الآخر يظهر عدة بلورات متداخلة. يجب اكتشاف الصور المفيدة («الضربات»)، وفرزها، وتحويلها إلى بيانات شدة يمكن دمجها إلى بنية عالية الجودة. ويتطلب القيام بذلك تقريباً في الزمن الحقيقي حوسبة عالية الأداء، لا سيما عندما يعمل الليزر بعشرات النبضات في الثانية.

محور بيانات وطني لتجارب الأشعة السينية

أُنشئ مركز المحور العالمي لبيانات العلم (GSDC) في KISTI كمرفق على نطاق وطني لخدمة العلوم المكثفة البيانات، من فيزياء الجسيمات إلى علم الجينوم. بالنسبة للبلورة المتسلسلة في منشأة ليزر الإلكترون الحر في مختبر بوهانغ للتسريع (PAL‑XFEL)، يشغّل GSDC ثلاثة خوادم مخصصة مزودة بعشرات نوى المعالجات، ومئات الغيغا بايت من الذاكرة، ونظام تخزين موازٍ عالي السرعة. خلال التجارب في محطة النانوبلورة في PAL‑XFEL، تُجمَع صور الحيود على كاشف أشعة سينية سريع وتُبَث إلى GSDC عبر وصلة بسرعة 10 جيجابت في الثانية. يمكن لتجربة واحدة مدتها 12–24 ساعة أن تولّد عدة تيرابايتات إلى ما يقرب من عشرة تيرابايتات من البيانات. في GSDC، يسجل المستخدمون الدخول عن بُعد، وينقون الإطارات غير المفيدة، ويشغّلون برامج متخصصة—مثل CrystFEL وبرامج الفهرسة المصاحبة—لتحويل الصور الخام إلى بيانات بنيوية منقحة.

Figure 2
Figure 2.

كم عدد المعالجات التي تفيد، ومتى

اختبر المؤلفون نظام GSDC باستخدام ثلاث مجموعات بيانات مُجمَّعة سابقاً من بروتينات مختلفة. أولاً، بحثوا مدى تحسّن سرعة المعالجة عند استخدام نوى معالجية أكثر بالتوازي. كما هو متوقع، خفّض استخدام معالجات أكثر الوقت الإجمالي اللازم لفهرسة الصور، لكن ليس بطريقة تناسبية تماماً. الانتقال من 10 إلى نحو 30–40 نواة أعطى مكاسب قوية، ثم تلاشت الفوائد بعد ذلك. بعد هذه النقطة، أضافت النوى الإضافية عبئاً زائداً وتعثّرت بسبب حدود مثل عرض نطاق الذاكرة، وسرعة الإدخال/الإخراج عند قراءة ملفات صغيرة عديدة، والتنسيق بين العديد من المهام الموازية. يوضح هذا أن «المزيد من النوى» ليس دائماً أفضل؛ هناك نقطة مثلى تُستخدم فيها العتاد بكفاءة دون أن تصبح عنق زجاجة.

المقايضة بين السرعة والكمال

بعد ذلك، قارن الفريق أربعة خوارزميات فهرسة مستخدمة على نطاق واسع—XDS وDirAx وMOSFLM وXGANDALF—على نفس منصة الحوسبة. كانت بعض الطرق، مثل XDS وDirAx، أسرع إجمالاً لكنها حددت جزءاً أصغر من الصور التي يمكن تحويلها بنجاح إلى أنماط حيود مفيدة. بينما كانت طرق أخرى، مثل MOSFLM وXGANDALF، أبطأ لكنها حولت مزيداً من الصور إلى بيانات قابلة للاستخدام وأنتجت عموماً جودة إحصائية أفضل في مجموعة البيانات المدمجة النهائية. كما استكشف المؤلفون كيف تؤثر اختيارات الإدخال البسيطة على كل من السرعة ومعدل النجاح: رفع عتبة الإشارة إلى الضوضاء أو إيقاف فهرسة البلورات المتعددة جعل المعالجة أسرع لكنه خفّض عدد الصور القابلة للاستخدام؛ وخفض العتبة أو تفعيل التعامل مع البلورات المتعددة فعل العكس. والأهم من ذلك، أن حتى الأخطاء الصغيرة في هندسة الكاشف—مثل المسافة بين الكاشف والعينة—تسبّبت في فشل الفهرسة أكثر وجعلت المعالجة أبطأ بشكل كبير، لأن البرنامج استمر في المحاولة ورفض الحلول غير الصحيحة.

ماذا يعني هذا للتجارب المستقبلية

من خلال قياس كيف تؤثر اختيارات العتاد وخوارزميات البرمجيات وإعدادات المستخدم على الأداء بشكل منهجي، يحوِّل هذا البحث تحدّي التعامل مع البيانات المعقد إلى مجموعة إرشادات عملية. للعلماء المخططين لتجارب PAL‑XFEL، يوضّح متى تكون المعالجة الموازية أكثر فاعلية، وأي برامج الفهرسة أفضل للتغذية الراجعة السريعة مقابل أقصى جودة بيانات، ولماذا يهم معايرة هندسة الكاشف بعناية إلى هذا الحد. يستنتج المؤلفون أن GSDC يمكّن بالفعل من معالجة فعالة وفي بعض الحالات تغذية راجعة فورية أثناء جمع البيانات، لكن ستظل هناك حاجة إلى توسيع موارد الحوسبة مع استمرار زيادة معدلات التكرار وحجوم مجموعات البيانات. للقراء غير المتخصصين، الرسالة الأساسية هي أن صنع «أفلام» للجزيئات ليس مجرد انتصار للّيزرات والكواشف المتقدّمة—بل يعتمد أيضاً بشكل حاسم على مراكز حوسبة مصممة جيداً قادرة على مجاراة فيض البيانات.

الاستشهاد: Nam, K.H., Na, SH. Serial femtosecond crystallography data processing at the global science data hub center at KISTI. Sci Rep 16, 6786 (2026). https://doi.org/10.1038/s41598-026-36540-z

الكلمات المفتاحية: البلورة المتسلسلة الفمتوثانية, ليزر الإلكترون الحر للأشعة السينية, الحوسبة عالية الأداء, معالجة البيانات, بنية البروتين