Clear Sky Science · he

מערכי נתונים ומודלים Open Molecular Crystals 2025 (OMC25)

· חזרה לאינדקס

מדוע נתוני גבישים נרחבים חשובים

קריסטלים מולקולריים נמצאים בלבן של טכנולוגיות יומיומיות רבות, מהרפואה והצבעים ועד לאלקטרוניקה גמישה. ההתנהגות שלהן תלויה לא רק באילו אטומים הן מכילות, אלא גם באופן שבו העתקים רבים של מולקולה מסודרים יחד בגביש. חיזוי הסידור הזה ואת ההשלכות שלו הוא משימה ידועה כקשה ואיטית, ודורשת בדרך כלל חישובים מכניים-קוואנטיים כבדים. מאמר זה מציג מאגר נתונים פתוח חדש, בשם Open Molecular Crystals 2025 (OMC25), שאוסף עשרות מיליוני מבני גבישים מולקולריים שעברו סימולציה מדוקדקת. המטרה שלו היא לספק לשיטות מודרניות של למידת מכונה את הניסיון העשיר שהן צריכות כדי ללמוד כיצד גבישים אלה מתנהגים, במטרה ארוכת טווח להאיץ, להוזיל ולהפוך לאמינה יותר את תהליך עיצוב הגבישים.

Figure 1
Figure 1.

ספרייה ענקית של גבישים מדומים

צוות OMC25 הציב לעצמו מטרה לבנות "מגרש אימונים" מקיף עבור מודלים ממוחשבים שמנבאים כיצד גבישים מולקולריים מסודרים וכמה היציבות של סידורים אלה. הם אספו יותר מ-27 מיליון מבני גבישים שנבנו מכ-50,000 מולקולות אורגניות שונות. כל גביש מכיל רק יסודות קלים נפוצים, כגון פחמן, חנקן, חמצן וכמה הלוגנים, ויכול להכיל עד כ-300 אטומים ביחידת החזרה הבסיסית שלו. עבור כל מבנה הם תיעדו לא רק את מיקום האטומים, אלא גם את האנרגיה הכוללת של הגביש, את הכוחות הפועלים על כל אטום ואת המתח המכאני בתא היחידה. התוויות הללו מאפשרות למודלי למידת מכונה לקשר בין דפוסים בסידור האטומי לבין התנהגות פיזיקלית.

מארגונים אקראיים למוצקים ריאליסטיים

כדי למלא את הספרייה הזו, המחברים לא הסתפקו בהעתקה של גבישים ניסיוניים ידועים. במקום זאת השתמשו בכלי קוד פתוח כדי לייצר דרכים רבות ושונות שמולקולה יכולה להתארגן בגביש. הם שינו את מספר המולקולות בתא היחידה הבסיסי וחקרו טווח רחב של סימטריות גבישיות. עבור כל מועמד יצרו גרסאות מרופדות באופן רופף וגרסאות דחוסות יותר כדי לכסות מצבים הנמצאים רחוק וקרוב לתנאים ריאליסטיים. לאחר מכן השתמשו בשיטה קוונטית איכותית, שכוללת את המשיכה העדינה בין המולקולות, כדי להרפות כל מבנה — איפשרו לאטומים לזוז שלב אחר שלב עד שהכוחות כמעט נעלמו. לאורך מסלולי הרפיה אלה הם דגמו מבנים ביניים רבים, ותיעדו כיצד גביש משתנה כשהוא מתיישב מניחוש גס לסידור סביר פיזיקלית.

Figure 2
Figure 2.

סינון קפדני וגיוון עשיר

מכיוון שניחושים אקראיים יכולים להניב מצבים בלתי ריאליסטיים, הצוות יישם מסננים מחמירים לניקוי הנתונים. הם הסירו כל מסגרת שבה אנרגיות, כוחות או מתחים היו חורגים באופן קיצוני, או שבה מולקולות נשברו או התמזגו בצורה שאינה כימית סבירה. הם גם בדקו שנפחי התאים לא קפצו כל כך עד שההגדרות הנומריות הבסיסיות יהפכו לאמינות פחות. התוצאה היא מאגר נתונים שמכסה מגוון רחב של כימיות וסגנונות אריזה תוך שמירה על דוגמאות לא-פיזיקליות במינימום. בהשוואה למאגר ניסיוני גדול של גבישים, OMC25 מכיל טווח רחב יותר של סימטריות גבישיות וגדלי תאי יחידה, כאשר נבחר במכוון לדגום יתר סוגים מסוימים של סידורים כדי לאתגר ולהעשיר מודלי למידת מכונה.

לימוד מחשבים לחזות גבישים

כדי לבדוק האם OMC25 אכן שימושי, המחברים אימנו מספר מודלים חדישים של למידת מכונה שפועלים ישירות על מבנים אטומיים. מודלים אלה לומדים לנבא אנרגיה, כוחות ומתח מתוך מיקומי זהויות האטומים. כאשר הוערכו על נתונים שמורים מתוך OMC25, הם השיגו שגיאות חיזוי נמוכות מאוד, מה שמראה שהמאגר עקבי ומלמד. הצוות דחף אז את המודלים למבחנים חיצוניים, כגון שחזור אנרגיות ונפחים של גבישים ידועים ודירוג צורות גביש שונות (פולימורפים) של אותה מולקולה. למרות שאומנו על נתונים שנוצרו עם גרסה אחת של שיטה קוונטית, המודלים התחרו היטב במבחנים מבוססי שיטות מעט מתקדמות יותר, והפגינו חוזקה מיוחדת בהשוואת יציבויות יחסיות של סידורי אריזת גביש שונים.

מה זה אומר לחומרים עתידיים

ללא-מומחים, המסר המרכזי הוא ש-OMC25 מציע מגרש אימונים גדול ומסודר שבו מודלי למידת מכונה יכולים "להתאמן" על גבישים מולקולריים ריאליסטיים. במקום להריץ חישובים קוונטיים תובעניים מאפס עבור כל ניחוש גבישי חדש, חוקרים יוכלו להיעזר יותר ויותר במודלים מהירים שלמדו על OMC25 כדי לסנן ולדייק מבנים. זה עשוי להאיץ את החיפוש אחר צורות תרופות טובות יותר, אלקטרוניקה אורגנית יעילה יותר, וחומרי-מומחיות משופרים. בעוד שהמאגר מתמקד בקבוצת גבישים מסוימת ומשתמש ברמת תיאוריה קוונטית אחת, הוא מקים בסיס חזק. על ידי פרסום הן את הנתונים והן דגמי הדוגמה באופן פתוח, המחברים שואפים להניע מאמצים רחבים יותר לחזות ולעצב גבישים מולקולריים עם הקלות והמהירות שיכולה להציע למידת מכונה מודרנית.

ציטוט: Gharakhanyan, V., Barroso-Luque, L., Yang, Y. et al. Open Molecular Crystals 2025 (OMC25) dataset and models. Sci Data 13, 354 (2026). https://doi.org/10.1038/s41597-026-06628-2

מילות מפתח: קריסטלים מולקולריים, פוטנציאלים של למידת מכונה, מאגר חומרים, חיזוי מבנה גבישי, כימיה קוונטית