Clear Sky Science · he

פיתוח מנבא pKa (pKaLearn) באמצעות ניצול ניסיון הוראה לשיפור למידת מכונה

2026-03-26 · חזרה לאינדקס

מדוע חשוב ללמד מכונות על חומצות

מוצרים יומיומיים, מתרופות ועד סוללות, נשענים על כמה בקלות מולקולות מוותרות או מקבלות פרוטונים — תכונה המתוארת בסקלת ה-pH ובמקבילה המולקולרית שלה, ה-pKa. מדידה של pKa במעבדה גוזלת זמן ומאמץ, ואפילו שיטות מחשב מתקדמות עלולות להיות איטיות או לא אמינות. במחקר זה נשאלת שאלה פשוטה עם השלכות גדולות: מה אם נלמד את המחשבים כימיה בסיסית כפי שלומדים תלמידים, ואז נבקש מהם לחזות ערכי pKa מהר ובהגיון רב יותר?

מכללי כיתה למכללי מחשב

בשיעור כימיה תלמידים לומדים בשלבים. תחילה באים אטומים ומגמות פשוטות כמו אלקטרושליליות, אחר כך רעיונות כמו רזוננס, מתיחות טבעת ואיך קבוצות סמוכות מושכות או דוחפות אלקטרונים. מאוחר יותר הם מתמודדים עם תחזיות מורכבות, כמו איזה מימן במולקולה מסובכת יהיה החומצי ביותר. המחברים טוענים שרוב מודלים של למידת מכונה מדלגים על ההתקדמות הזו. לרוב הם מקבלים מבנים גולמיים או טביעות אצבע אבסטרקטיות ומתבקשים לגלות דפוסים לבד, מה שעלול להוביל לזיכרון של דוגמאות במקום הבנה של הסיבות היסודיות. כאן הצוות מקודד במכוּון את אותם רעיונות בסיסיים שמורים משתמשים בהם ומעביר אותם לאלגוריתמים.

Figure 1. להעביר למחשב רעיונות כימיים בסיסיים כדי שיוכל לשפוט עד כמה מולקולות הן חומציות.

בניית מודל שחושב כמו כימאי

החוקרים התרכזו בחיזוי ערכי pKa של מולקולות אורגניות קטנות, תכונה מרכזית לעיצוב תרופות ולתחומים רבים בכימיה. הם בנו מודל בשם pKaLearn תוך שימוש ברשת נוירונים גרפית, שמתייחסת למולקולה כאל אוסף אטומים שמחוברים בקשרים. במקום להסתמך רק על קודים מבניים גנריים, הוסיפו תכונות הקשורות ישירות לעקרונות ספרי הלימוד: כמה פולארי הוא הקשר, כמה קשרים מפרידים קבוצה טעונה מאתר יוני, האם קשר הוא חלק מטבעת, וכיצד קוניגציה ורזוננס יכולים לפזר מטען. הם גם מדדו עד כמה השפעות עדינות כמו משיכה אינדוקטיבית נעות לאורך שרשרת אטומים ועיצבו את הרשת כך שכל אתר יוני "מרגיש" את סביבה עד כ־שבעה קשרים הרחק.

הוראה, בדיקה והימנעות מזיכרון פשוט

כדי לבדוק אם סגנון ההוראה שלהם אכן עזר למחשב ללמוד, המחברים הרכיבו וניקו בקפידה מסד נתונים של כ־13,000 ערכי pKa. במקום הפיצול האקראי הרגיל, שעשוי לגרום למולקולות האימון והמבחן להיות דומות מאוד, הם קיבצו את המולקולות כך שמערך המבחן יכלול משפחות כימיות חדשות. מבחן קשה זה חושף האם המודל למד חוקים כלליים או פשוט זכר דוגמאות. בתנאים אלו, pKaLearn השיג שגיאות טיפוסיות מתחת ל־0.7 יחידות pKa, טוב יותר ממודלים סטטיסטיים מסורתיים המבוססים על טביעות אצבע וחזק יותר ממספר מנבאים קיימים מבוססי למידת מכונה וכימיה קוונטית. כאשר ניסו קיצורי דרך סטנדרטיים, כגון הסתמכות רק על סוגי יסוד או על הגדרה תוכנתית נפוצה של קשרים מקוננגטים, הביצועים ירדו, מה שמדגיש את הערך של תכונות כימיות משמעותיות ומוגדרות היטב.

Figure 2. לעקוב אחרי האופן שבו מודל סורק כל אתר חומצי במולקולה כדי לחזות את עוצמתו שלב אחר שלב.

השוואה למנבאים חכמים אחרים

הצוות השווה את pKaLearn לכלי pKa ידועים בערכות מבחן נפוצות, כולל מולקולות מחברות פארמה ואתגרים של חיזוי עיוור שבהם התשובות הנכונות הוסתרו במהלך הפיתוח. במבחנים אלה, המודל שלהם עקב בקביעות אחרי או עולה על ביצועים של שיטות שמשלבות חישובים כוונטיים כבדים עם למידת מכונה, וכן על רשתות נוירונים גרפיות אחרות. חשוב מכך, הם בדקו גם מקרים שבהם התחזיות נכשלו, לעתים קרובות עקבו אחר חוסר זיהוי של אתרים יוניים, טאוטומרים מסובכים שיכולים להזיז פרוטונים בתוך המולקולה, או נתונים ניסיוניים שהיו עצמם לא ברורים. בסך הכל רק אחוז קטן מהתרכובות הראה שגיאות גדולות, והביצועים נשארו יציבים על פני קבוצות פונקציונליות רבות ושונות.

מה זה אומר לכימאים ומעבר לכך

המחקר מראה שמכונות יכולות להפיק תועלת מלמידה בסגנון תלמידים. על ידי הטמעת רעיונות כימיים פשוטים אך רבי־עוצמה ישירות באלגוריתם למידה, המחברים יצרו מנבא pKa שהוא גם מדויק וגם ניתן לפרש יותר מאשר מודלים תיבתיים. עבור משתמשים מעשיים, זה אומר הערכות חומציות ובסיסיות מהירות ואמינות יותר על טווח רחב של מולקולות, המסייעות להנחות עיצוב תרופות ומאמצי גילוי מולקולרי אחרים. ביתר הרחבה, העבודה מציעה מסלול לכלים עתידיים: במקום לבקש מבינה מלאכותית לגלות את המדע היסודי מאפס, נוכל לבנות מומחיות אנושית לתוך המודלים ולהשאיר להם למקד ולהרחיב את הידע הזה.

ציטוט: Genzling, J., Luo, Z., Weiser, B. et al. Development of a pKa predictor (pKaLearn) by leveraging teaching experience to improve machine learning. Commun Chem 9, 181 (2026). https://doi.org/10.1038/s42004-026-01983-y

מילות מפתח: חיזוי pKa, למידת מכונה, רשת נוירונים גרפית, כימיה חישובית, עיצוב תרופות