Clear Sky Science · ar
مجموعة بيانات ونماذج Open Molecular Crystals 2025 (OMC25)
لماذا تهم بيانات البلورات الضخمة
تقع البلورات الجزيئية في قلب العديد من التقنيات اليومية، من الأدوية والأصباغ إلى الإلكترونيات المرنة. سلوكها لا يعتمد فقط على العناصر التي تحتويها، بل على كيفية تكدس نسخ كثيرة من الجزيء معًا داخل الجسم الصلب. التنبؤ بهذا التكدس ونتائجه صعب وبطيء على نحو شهير، وعادة ما يتطلب حسابات ميكانيكا كمية كثيفة. تعرف هذه المقالة على مجموعة بيانات مفتوحة جديدة تسمى Open Molecular Crystals 2025 (OMC25)، تجمع عشرات الملايين من هياكل البلورات الجزيئية المحاكاة بعناية. صممت لتمنح أساليب تعلم الآلة الحديثة الخبرة الواسعة اللازمة لتعلم سلوك هذه البلورات، بهدف طويل المدى يجعل تصميم البلورات أسرع وأرخص وأكثر موثوقية.

مكتبة هائلة من بلورات نموذجية
انطلق فريق OMC25 لبناء «ساحة تدريب» واسعة للنماذج الحاسوبية التي تتنبأ بكيفية ترتيب البلورات الجزيئية ومدى استقرار تلك التراكيب. جمعوا أكثر من 27 مليون هيكل بلوري مبني من نحو 50,000 جزيء عضوي مختلف. يحتوي كل بلورة على عناصر خفيفة شائعة فقط، مثل الكربون والنيتروجين والأكسجين وبعض الهالوجينات، ويمكن أن يصل عدد الذرات في الوحدة المتكررة الأساسية إلى 300 ذرة. لكل هيكل، سجّلوا ليس فقط مواقع الذرات، بل أيضًا الطاقة الإجمالية للبلورة، والقوى المؤثرة على كل ذرة، والإجهاد الميكانيكي داخل خلية الوحدة. هذه الوسوم هي التي تسمح لنماذج تعلم الآلة بربط الأنماط في ترتيبات الذرات بالسلوك الفيزيائي.
من التكدسات العشوائية إلى الأجسام الصلبة الواقعية
لملء هذه المكتبة، لم يكتفِ المؤلفون بنسخ البلورات التجريبية المعروفة. بل استخدموا أداة مفتوحة المصدر لتوليد طرق متعددة يمكن أن يتكدس بها الجزيء داخل البلورة. تنوعوا في عدد الجزيئات داخل خلية الوحدة الأساسية واستكشفوا نطاقًا واسعًا من تماثلات البلورة. لكل مرشح، أنشأوا نسخًا مفكوكة التكديس وأخرى محكمة التكديس لتغطية حالات بعيدة عن والملامسة للظروف الواقعية. ثم استخدموا طريقة كمية عالية الجودة، تشتمل على الجذب الدقيق بين الجزيئات، لإرخاء كل هيكل—مسمحين للذرات بأن تتحرك خطوة بخطوة حتى تكاد القوى تختفي. على طول مسارات الإرخاء هذه، أخذوا عينات للعديد من الهياكل الوسيطة، موثقين كيف يتغير شكل البلورة بينما تستقر من تخمين أولي خشن إلى ترتيب مادي محتمل.

تصفية دقيقة وتنوّع غني
لأن التخمينات العشوائية قد تنتج حالات غير واقعية، طبق الفريق مرشحات صارمة لتنقية البيانات. أزالوا أي إطارات كانت فيها الطاقات أو القوى أو الإجهادات خارجة عن المألوف بشكل كبير، أو حيث تحللت الجزيئات أو اندمجت بطرق كيميائية غير معقولة. كما تحققوا من أن أحجام الخلايا لم تقفز بشكل يجعل الإعدادات العددية الأساسية غير موثوقة. النتيجة هي مجموعة بيانات تغطي تنوعًا هائلًا من الكيمياءات وأنماط التكديس مع الحد الأدنى من الأمثلة غير الفيزيائية. مقارنةً بقاعدة بيانات بلورات تجريبية كبيرة، تحتوي OMC25 على توزيع أوسع من تماثلات البلورات وأحجام خلايا الوحدة، مع زيادة عمدية في أخذ عينات بعض أنواع التراكيب لتحدي وإثراء نماذج تعلم الآلة.
تعليم الحواسيب توقع البلورات
لاختبار ما إذا كانت OMC25 مفيدة بالفعل، درّب المؤلفون عدة نماذج متقدمة لتعلم الآلة تعمل مباشرة على الهياكل الذرية. تتعلم هذه النماذج التنبؤ بالطاقة والقوى والإجهاد من مواقع وهويات الذرات. عند تقييمها على بيانات OMC25 المحتفظ بها، حققت أخطاء تنبؤ منخفضة جدًا، مما يبيّن أن مجموعة البيانات متسقة ومعلوماتية. ثم دفع الفريق النماذج إلى اختبارات خارجية، مثل إعادة إنتاج طاقات الأحجار البلورية المعروفة وأحجامها وترتيب أشكال البلورات المختلفة (المتبلورات المتعددة) لنفس الجزيء. بالرغم من تدريبها على بيانات مولدة بأسلوب واحد من الطرق الكمية، قدمت النماذج أداءً تنافسيًا على معايير مبنية على طرق متقدمة إلى حد ما، وكانت قوية بشكل خاص في مقارنة الاستقرار النسبي لتراكيب البلورات المختلفة.
ماذا يعني هذا لمواد المستقبل
لغير المتخصصين، الرسالة الأساسية هي أن OMC25 يوفر ملعبًا واسعًا ومنقحًا بعناية حيث يمكن لنماذج تعلم الآلة «التدرب» على بلورات جزيئية واقعية. بدلاً من إجراء حسابات كمية مكلفة من الصفر لكل تخمين بلوري جديد، يمكن للباحثين الاعتماد بشكل متزايد على نماذج سريعة مُتعلمة مدربة على OMC25 لفحص الهياكل وصقلها. قد يسرّع هذا البحث عن أشكال دوائية أفضل، وإلكترونيات عضوية أكثر كفاءة، ومواد متخصصة محسّنة. بينما تركز مجموعة البيانات على عائلة معينة من البلورات وتستخدم مستوى واحدًا من النظرية الكمية، فإنها تؤسس أساسًا قويًا. من خلال إتاحة كل من البيانات والنماذج النموذجية بصورة مفتوحة، يهدف المؤلفون إلى تحفيز جهود أوسع لتنبؤ وتصميم البلورات الجزيئية بالسهولة والسرعة التي يمكن أن توفرها تقنيات تعلم الآلة الحديثة.
الاستشهاد: Gharakhanyan, V., Barroso-Luque, L., Yang, Y. et al. Open Molecular Crystals 2025 (OMC25) dataset and models. Sci Data 13, 354 (2026). https://doi.org/10.1038/s41597-026-06628-2
الكلمات المفتاحية: بلورات جزيئية, إمكانات تعلم الآلة, قاعدة بيانات مواد, تنبؤ تركيب البلورة, كيمياء كمية