Clear Sky Science · he
למידת מכונה עמוקה מולקולרית על קצה מרחב הכימיה
מדוע חיזויי תרופות חכמים חשובים
גילוי תרופות מודרני מתבסס יותר ויותר על בינה מלאכותית כדי לסנן מתוך ספריות עצומות של מולקולות ולסמן מועמדים מבטיחים. אך יש בעיה: מודלים רבים של למידת מכונה עובדים היטב רק על מולקולות הדומות לאלו שראו בעבר. כאשר מתבקשים להעריך תרכובות יוצאות דופן — אלה שעלולות להפוך לתרופות ייחודיות בקטגורייתן — המודלים עלולים להפגין ביטחון מופרז ולהיות שגויים. מחקר זה מציג דרך חדשה לזהות מתי המודל נמצא על קרקע רעועה, ובכך מאפשר לחוקרים להתקדם בבטחה לאזורים לא נחקרים במרחב הכימי.
כשהמפה לא מספיקה
בשלבי הגילוי המוקדמים, מדענים מחפשים "היטים": מולקולות קטנות המשפיעות על מטרה ביולוגית כמו חלבון הקשור למחלה. מאחר והרצת ניסויים מעבדתיים על מיליארדי מולקולות אפשריות אינה מעשית, מאמנים מודלים של למידת מכונה על כמה מאות או אלפי תרכובות ידועות ומשתמשים בהם כדי לחזות אילו חדשים שווים בדיקה. עם זאת, מודלים אלה נוטים להתפרק מול מולקולות שלא דומות לנתוני האימון שלהם — בעיה המכונה שינוי התפלגות. אמצעי הגנה קיימים או מציבים גבול קשיח סביב האזור המוכר, וחוסמים מולקולות הרפתקניות יותר, או מעריכים אי־וודאות בחיזוי בדרכים שעדיין עלולות להטעות כשהמודל נתקל במשהו באמת חדש.

תחושת לא־מוכרות חדשה
המחברים מציעים אסטרטגיה שונה המבוססת על סוג של מערכת למידה עמוקה הנקראת אוטואנקדודר (autoencoder). ה"מודל המולקולרי המשולב" שלהם לומד שתי משימות במקביל: לחזות האם מולקולה פעילה על מטרה נתונה, ולשחזר את המולקולה מקוד פנימי דחוס. אם המודל מתקשה לבנות מחדש מולקולה מסוימת בדיוק, היא מסווגת כ"לא־מוכרת". הצוות הופך את שגיאת השחזור הזו לציון מספרי, שנקרא לא־מוכרות, המשקף עד כמה ממוקמת מולקולה מחוץ לתבניות הכימיות שהמודל אכן למד. באופן מכריע, הציון מונע על ידי הבנת הכימיה של המודל עצמו ולא על ידי מדדי דמיון פשוטים שנבנו ביד.
בדיקת קצה מרחב הכימיה
כדי לבחון עד כמה הלא־מוכרות מזהה כאשר המודל חורג מעומקו, החוקרים הרכיבו 33 סטים של נתונים המכסים מטרות וביוכימיות שונות. הם השתמשו בשיטות צבירה (clustering) כדי לחלק כל מאגר לדוגמאות טיפוסיות ולדוגמאות בעלות מבנה יוצא דופן יותר, תוך חיקוי ההבחנה בין מולקולות נחקרות היטב לבין חדשות. בכל אבני המידה האלה, מולקולות שסומנו כ"מחוץ להתפלגות" הציגו באופן עקבי ציוני לא־מוכרות גבוהים יותר. אפקט זה לא ניתן היה להסבר על ידי תכונות טריוויאליות כגון גודל או מורכבות המולקולה. במקום זאת, הלא־מוכרות עקבה באופן הדוק אחר המרחק שבו גרעין המבנה של מולקולה נמצא הרחק מזה של תרכובות האימון, מה שאישר שהמודל אכן חש כמה "מחוץ לטבלה" מולקולה מסוימת היא.
מה שאי־וודאות לבדה עלולה לפספס
הצוות השווה לאחר מכן את הלא־מוכרות לכמה דרכים מקובלות להערכת אמינות החיזוי, כולל אי־וודאות של המודל ושיטות שונות למדידת דמיון כימי. גם הלא־מוכרות וגם אי־הוודאות היו קשורים לביצועי המסווג: כשהאחת או השנייה גבוהה, תחזיות נטו להיות פחות מדויקות. יחד עם זאת, שני האותות היו ברובם בלתי תלויים זה בזה. הלא־מוכרות תיעדה גם מרחק מבני וגם ביצועים, בעוד שאי־הוודאות לבדה לא שיקפה מבנה היטב, במיוחד כאשר המולקולות הגיעו מהתפלגות שונה מאוד. בסריקות וירטואליות ענקיות של יותר ממיליון מולקולות מסחריות, הלא־מוכרות הפרידה במדויק בין תרכובות שגרתיות לבין ממש חדשות, בעוד שאי־הוודאות הציעה הבדל קטן בין שתי הקבוצות.

ממסך המחשב למעבדה הרטובה
להדגמת השפעה מעשית, החוקרים ערכו סקר פרוספקטיבי על כ־180,000 מולקולות ניתנות לרכישה, בחיפוש אחר מעכבים לשני אנזימים רלוונטיים למחלה, PIM1 ו‑CDK1. הם אימנו את המודל המשולב שלהם על מאגרי נתונים קיימים צנועים ואז דירגו תרכובות חדשות באמצעות שלושה מרכיבים בבת אחת: פעילות חזויה, אי־וודאות המודל ולא־מוכרות. לאחר רכישה ובדיקת רק 60 מולקולות במבחנים ביוכימיים, הם גילו שבע בעלות עוצמה במעגל המיקרומולארי הנמוך, כולן מובחנות מבחינה מבנית מתרכובות האימון וממעכבי קינאז טיפוסיים. אסטרטגיות שהעדיפו לא־מוכרות נמוכה — בעוד שהן עדיין אפשרו אי־וודאות — נטו להניב את ה"היטים" החזקים ביותר, מה שמרמז כי התחשבות בלא־מוכרות יכולה לכוון חקירה לכימיה מבטיחה שאינה זרה לחלוטין.
מה משמעות הדבר עבור תרופות עתידיות
במונחים יומיומיים, ציון הלא־מוכרות נותן למודלים של למידת מכונה בכימיה חוש פנימי מתי הם מפיקים מסקנות שמעבר למה שהם יודעים. על ידי קישור תחושה זו ליכולת המודל לשחזר מולקולות, הגישה משקפת במקביל דמיון כימי ואמינות בחיזוי. המחקר מראה כי מדד זה יכול לחשוף שינויים בהתפלגות שדרכים סטנדרטיות מפספסות, לשפר עדיפויות בסריקות וירטואליות ולעזור לחשוף חומר כימי חדש בניסויים אמיתיים. ככל שחוקרי תרופות נודדים יותר ויותר אל מרחבי הכימיה הרחבים והבעיקר הלא מנושלים, הלא־מוכרות מציעה מצפן עקרוני להחלטה אילו תחזיות אמיצות שוות להאמין — ולבדוק במעבדה.
ציטוט: van Tilborg, D., Rossen, L. & Grisoni, F. Molecular deep learning at the edge of chemical space. Nat Mach Intell 8, 575–587 (2026). https://doi.org/10.1038/s42256-026-01216-w
מילות מפתח: למידת מכונה מולקולרית, גילוי תרופות, מרחב כימיה, מחוץ להתפלגות, סריקה וירטואלית