Clear Sky Science · he
העברת ידע ממולטימודל לאחד לפני-אימון ללמידת ייצוגים מולקולריים
מדוע מחשבים חכמים יותר לתרופות חשובים
עיצוב תרופות חדשות תלוי יותר ויותר במחשבים שיכולים "להבין" מולקולות. תוכניות אלה ממירות מולקולה של תרופה למספרים שמודל יכול להשתמש בהם כדי לחזות בטיחות, עוצמה או אינטראקציות מזיקות. המאמר מציג את M2UMol, שיטה חדשה לאימון מודלים כאלה כך שיעבדו טוב גם כאשר זמינה רק סוג המידע המולקולרי הנפוץ ביותר, מה שמבטיח סיוע מהיר ואמין יותר לכימאים ולרופאים.

לראות את המולקולה ממספר זוויות
מידע ממשי על תרופות מגיע בצורות רבות: שרטוט שטוח של קשרי האטומים, צורה תלת־ממדית, תיאורים כתובים של אופן הפעולה ורשימות ארוכות של עובדות ביולוגיות כמו אילו חלבונים היא קושרת. רוב השיטות הקיימות משתמשות רק באחת מהתצפיות האלה או דורשות שכלן יהיו זמינות לכל מולקולה במהלך האימון. בפועל, עם זאת, הנתונים שכמעט תמיד זמינים הם המבנה הדו־ממדי הפשוט. תצפיות אחרות לעתים קרובות חסרות, מה שמונע מהשיטות המולטימודליות הנוכחיות ללמוד ממספר גדול של מולקולות מהעולם האמיתי.
להרשיל תצפית אחת לחשוב כמו רבות
M2UMol מטפלת בכך על ידי התייחסות לגרף הדו־ממדי של המולקולה כמרכז ולמידה כיצד נקודת המבט היחידה הזו מתייחסת לאחרות. במהלך לפני־האימון המערכת קוראת גרפים דו־ממדיים, צורות תלת־ממדיות, תקצירי טקסט ורשימות תכונות ביולוגיות עבור למעלה מאלף תרכובות דמויות־תרופה. היא משתמשת בקודקודים נפרדים לכל סוג של נתונים ולאחר מכן מאמנת "מתאמים" שלוקחים רק את הגרף הדו־ממדי ומייצרים כיצד דפוסי התלת־ממד, הטקסט או הביולוגיה אמורים להיראות. שלב למידה קונטרסטיבית דוחף את הדפוסים המיוצרים להתאים בקירבה לאמיתיים בכל פעם שהם זמינים, גם אם חלק מהתצפיות חסרות עבור חלק מהמולקולות. משימת אימון שנייה מבקשת מהמערכת לנחש לאיזו מודאליות שייך דפוס מיוצר, ועוזרת לשמור על ההבחנה בין סוגי המידע השונים.

להשתמש בידע מולטימודלי כשזמין רק דו־ממדי
לאחר ש‑M2UMol למדה את הקשרים האלה, ניתן להחיל אותה על משימות מעשיות שבהן ניתנים רק מבנים דו־ממדיים, כגון חיזוי רעילות, תכונות הקשורות למחלות או אינטראקציות בין תרופות. עבור כל מולקולה חדשה, הקודקוד הדו־ממדי הלא־מאומן מייצר ייצוג מרכזי, והמתאמים מייצרים שלוש גרסאות "מדומות": אחת המדמה גאומטריה תלת־ממדית, אחת המדמה ידע מבוסס טקסט ואחת הלוכדת הקשר ביולוגי. מודול תשומת לב פשוט משלב אז את ארבעת התצפיות הללו לטביעת אצבע סופית המשמשת מנבאים למשימות ספציפיות. זה מאפשר למעשה למודל לפעול כאילו הייתה לו מידע מולטימודלי עשיר, בעוד שהמשתמשים נדרשים רק לספק מבנה דו־ממדי סטנדרטי.
תחזיות טובות יותר עם פחות נתונים והסבר ברור יותר
במגוון רחב של מדדי ייחוס, M2UMol עולה על מודלים בעלי תצפית יחידה ועל מודלים מולטימודליים קודמים בחיזוי תכונות מולקולריות ובמשימות מורכבות יותר כמו אינטראקציות בין תרופות ובין תרופות ומטרות. היא עושה זאת אף על פי שהיא מאומנת על קצת יותר מאחד־עשר אלף מולקולות, ומשתמשת במשאבי חישוב צנועים, בעוד ששיטות מתחרות רבות משתמשות במיליונים. ניתוחים ויזואליים מראים שהייצוגים שנלמדו גם מופרדים היטב בין מחלקות שונות וגם מפוזרים באופן אחיד — סימן לתכולת מידע גבוהה. המודל גם יכול להדגיש אטומים וקשרים ספציפיים המניעים את החלטותיו, ולעתים קרובות אלה תואמים לקבוצות פונקציונליות ידועות האחראיות על רעילות, פעילות בקולטן או אינטראקציות בעייתיות בין תרופות.
מה זה אומר עבור תרופות בעתיד
עבור הלא־מומחים, הרעיון המרכזי הוא ש‑M2UMol לומדת לראות שרטוט קווי פשוט של מולקולה כאילו הוא נושא שלוש שכבות נוספות של הקשר מדעי עשיר. הטריק הזה מאפשר לה לספק תחזיות חזקות יותר וברי־הסבר לגבי התנהגות תרופה, גם כשנתונים ניסויים מפורטים אינם זמינים. מכיוון שהיא יעילה, בקוד פתוח ומוכנה לשימוש קל, גישה זו יכולה לעזור לחוקרים לסנן תרכובות בצורה חכמה יותר, להבין מדוע תרופות נכשלות ובסופו של דבר להנחות את עיצובן של תרופות חדשות עם פחות הפתעות.
ציטוט: Xiong, Z., Wang, Z., Huang, F. et al. Multi-to-uni modal knowledge transfer pre-training for molecular representation learning. Nat Commun 17, 3797 (2026). https://doi.org/10.1038/s41467-026-69302-6
מילות מפתח: גילוי תרופות, למידת ייצוג מולקולרי, בינה מלאכותית מולטימודלית, אינטראקציות בין תרופות, כימיה חישובית