Clear Sky Science · he

פיתוח והערכה של מודל חיזוי מסיסות יעיל לתרופות בממיסים אורגניים באמצעות למידת מכונה מבוססת eXtreme Gradient Boosting

· חזרה לאינדקס

מדוע המסה של תרופות חשובה באמת

כאשר גלולה נכנסת לגוף, עליה להמיס תחילה לפני שתוכל לפעול. הקלות שבה חומר פעיל נמס בנוזל משפיעה על אופן ייצור התרופה, על יציבותה ועל יעילותה. מדידת "המסיסות" הזו במגוון נוזלים וטמפרטורות היא איטית ויקרה. המחקר בוחן כיצד כלי נתונים מודרני, למידת מכונה, יכול לסייע לחוקרים להעריך במהירות עד כמה תרכובות דמויות-תרופות נמסות בממיסים אורגניים נפוצים, באמצעות כמות קטנה של מידע קל להשגה.

בחירת הממס המתאים לגידול גבישים

בייצור תרופות, מגדלים לעיתים קרובות גבישים של החומר הפעיל מתוך ממס אורגני. הממס לא רק קובע כמה מוצק מושג; הוא גם מעצב את גודל וצורת הגבישים, מה שעלול להשפיע על התנהגות התרופה. באופן מסורתי כימאים מבצעים ניסויים רבים או משתמשים במשוואות תרמודינמיות מורכבות כדי לחזות מסיסות. שיטות אלה יכולות להיות מדויקות אך דורשות לעתים פרמטרים מותאמים רבים או נתונים מולקולריים מפורטים שאינם זמינים בשלב פיתוח מוקדם. במקום זאת, המחברים שואלים האם מודל למידת מכונה מעוצב בקפידה יכול ללכוד את המגמות המרכזיות במסיסות תוך כדי שמירה על קלטים פשוטים בעלי משמעות פיזיקלית.

Figure 1. כיצד מודל למידת מכונה קומפקטי מקשר תכונות בסיסיות של תרופה וממיס למסיסות דרך מגוון נוזלים אורגניים.
Figure 1. כיצד מודל למידת מכונה קומפקטי מקשר תכונות בסיסיות של תרופה וממיס למסיסות דרך מגוון נוזלים אורגניים.

מודל קומפקטי מונחה-נתונים עם תובנה פיזיקלית

הקבוצה בנתה מודל חיזוי מסיסות באמצעות שיטת למידת מכונה נפוצה בשם eXtreme Gradient Boosting, או XGBoost. הם אספו נתוני מסיסות שפורסמו עבור ארבע מולקולות דמויות-תרופות בתשע ממיסים אורגניים נפוצים, על פני טווח רחב של טמפרטורות, מה שהניב 224 נקודות נתונים. במקום להזין לאלגוריתם תיאורים אקראיים, בחרו עשרה תכונות שכימאים כבר מבינים: תכונות המוצק (כגון טמפרטורת התכה, חום התמצקות, קיבול חום ופרמטר מסיסות ידוע), תכונות בסיסיות של הנוזל (קוטביות דרך קבוע דיאלקטרי וטמפרטורת רתיחה) וכן הטמפרטורה עצמה וקידודים פשוטים של שמות המוצק והממס. כדי לשקף את העובדה שרוב המוצקים נמסים טוב יותר בחימום, שילבו כלל שמאלץ את תחזיות המודל לעלות עם הטמפרטורה, ובכך מבטיחים התנהגות הגיונית פיזיקלית.

עד כמה המודל תואם למדידות אמיתיות

לאחר כיול המודל באמצעות חציי-אימות (cross-validation), המחברים בדקו עד כמה התחזיות תואמות לערכים הנמדדים. הם העריכו ביצועים על ידי השוואת הלוגריתם של המסיסויות הנמדדות והמנובאות, שהוא מתאים משום שהמסיסויות השתרעו על פני מספר סדרי גודל. עבור ארבעת המרכיבים ששימשו לאימון ובדיקה, המודל שיחזר את הנתונים עם שגיאות ממוצעות קטנות וקורלציה גבוהה, מה שמעיד שהוא יכול לתאר באופן אמין את המסיסות התלויית-טמפרטורה בסביבות נוזליות רבות. חשוב לציין שהמודל נשאר מדויק גם עבור תרכובת בעלת מסיסות נמוכה מאוד, ריספרידון, שהתנהגותה קשה במיוחד ללכידה באמצעות משוואות פשוטות.

Figure 2. מבט שלב-אחר-שלב על הקלטים, מודל למידת המכונה, והעקומות התואמות של המסיסות הנמדדת והמוחזית עם עליית הטמפרטורה.
Figure 2. מבט שלב-אחר-שלב על הקלטים, מודל למידת המכונה, והעקומות התואמות של המסיסות הנמדדת והמוחזית עם עליית הטמפרטורה.

חיזוי של תרכובת חדשה לחלוטין

השאלה הקריטית הייתה האם המודל יכול להתמודד עם חומר פעיל שמעולם לא נחשף לו. כדי לבדוק זאת, החוקרים שמרו בצד את כל הנתונים עבור תרכובת חמישית, בוטמבין, והשתמשו ב-50 המדידות האלה רק לאחר סיום האימון. השגיאות של המודל היו גדולות יותר במשימת החיזוי האמיתית הזו מאשר עבור הנתונים שראה קודם, אך עדיין נותרו בטווח השווה לאי-ודאות ניסיונית טיפוסית, במיוחד עבור כמה מהממיסים הנבדקים. בהשוואה לשתי שיטות תרמודינמיות חצי-חיזוי נפוצות, Flory-Huggins ו-NRTL-SAC התלויות בטמפרטורה, מודל ה-XGBoost הפיק באופן עקבי שגיאות קטנות יותר בסך הכל וביצע במיוחד טוב במערכות המאתגרות ביותר.

מה המשמעות לזה עבור פיתוח תרופות עתידי

עבור לא-מומחים, המסקנה המרכזית היא שמודל למידת מכונה קומפקטי ומודע לפיסיקה יכול בהסתברות גבוהה להעריך עד כמה מולקולות דמויות-תרופות נמסות בממיסים אורגניים נפוצים על פני טווח טמפרטורות. הוא עושה זאת באמצעות סט צנוע של תכונות מדידות, ללא הצורך באחיזת פרמטרים כבדה שלרוב נדרשת בגישות מסורתיות. בעוד שהמחברים מציינים ששיפור הבחירה של התיאורים והרחבת הנתונים ישפרו את הביצועים, המחקר מראה כי מודלים כאלה כבר יכולים לתמוך בסינון ממסים ובעיצוב תהליכים, ולעזור לכימאים לצמצם אפשרויות מבטיחות לפני שמבצעים עבודת מעבדה מפורטת.

ציטוט: Valavi, M., Assareh, M., Khoshsima, A. et al. Development and evaluation of an effective solubility prediction model for pharmaceuticals in organic solvents using machine learning based on eXtreme Gradient Boosting. Sci Rep 16, 16592 (2026). https://doi.org/10.1038/s41598-026-53038-w

מילות מפתח: מסיסות תרופות, ממיסים אורגניים, למידת מכונה, XGBoost, גְרִיגָה (Crystallization)