Clear Sky Science · he

DeepRetro מוצא מסלולים רטרוסינתטיים באמצעות הסקת מסקנות איטרטיבית של מודלים לשוניים גדולים

· חזרה לאינדקס

מדוע כימיה חכמה חשובה

רבים מהתרופות והחומרים החשובים של היום מתחילים כמולקולות מורכבות וקשות להכנה. תכנון הדרך לבנות מולקולות אלה במעבדה דומה למציאת הדרך הטובה ביותר לפרק ואז להרכיב מחדש מכונה מסובכת מחלקי חילוף. שלב התכנון הזה, הנקרא עיצוב סינתזה, מהווה לעתים צוואר בקבוק מרכזי בגילוי תרופות ובפיתוח חומרים מתקדמים. מאמר זה מציג את DeepRetro, מערכת קוד פתוח חדשה שמשתמשת במודלים לשוניים גדולים—אותם סוגי AI שעומדים מאחורי צ׳אטבוטים מודרניים—בשילוב עם תוכנות כימיה מסורתיות ומומחיות אנושית, כדי לתכנן מתכונים ריאליסטיים שלב-אחר-שלב להכנת מולקולות מורכבות מאוד.

Figure 1
Figure 1.

פירוק מולקולות גדולות לחלקים ניתנים לניהול

כימאים בדרך כלל מתכננים סינתזה בעבודה הפוכה מהמולקולה המטרה, "מפצלים" אותה במחשבה לחלקים פשוטים שניתן לקנות או להכין. מחשבים מסייעים במשימה הזו כבר עשרות שנים, אבל כלים קיימים מתקשים כשמולקולות הופכות מסובכות, אקזוטיות או שונות ממה שקיים בבסיסי הנתונים של תגובות. DeepRetro מתמודד עם הבעיה על ידי שילוב שני עולמות: מנועים מהירים מבוססי-חוק שמיישמים תבניות תגובה ידועות, ו"מוח" של מודל לשוני שיכול להציע דרכי פירוק בלתי שגרתיות אך כימית-סבירות. במקום לבקש מה-AI להמציא מתכון מלא בבת אחת, DeepRetro מבקש ממנו רק צעד אחורי אחד בכל פעם ואז בודק כל הצעה בקפידה.

להשאיר את ה-AI כן

בעיה מרכזית עם מודלים לשוניים גדולים היא שהם יכולים "להזות"—להציע ביטחון בשלבים שמפרים כימיה בסיסית. DeepRetro עוטף את ה-AI במספר שכבות בדיקה אוטומטיות. כל מולקולה ביניים שמוצעת נבדקת לתקינות פשוטה (למשל, האם האטומים בעלי מספר הקשרים הנכון), לסבירות יציבות, ולתאימות פנימית עם שאר התגובה. הצעות שנכשלות בבדיקות נדחות. עבור אלה שעוברות, המערכת מפעילה מנוע חיפוש מסורתי כדי לבדוק האם כימיה ידועה יכולה לקשר בין חלקי הבנייה הללו חזרה לחומרי גלם קניינים אמיתיים. כימאים יכולים גם להתערב בכל שלב דרך ממשק גרפי: לערוך מבנים, להפעיל מחדש רק חלק מהנתיב, או להוסיף קבוצות מגן נפוצות שעושות כימיה רב-שלבית מעשית.

Figure 2
Figure 2.

מבחן המערכת

כדי לבדוק עד כמה DeepRetro עובד, המחברים העריכו אותו על אוספי בנצ'מרק סטנדרטיים של תגובות מבסיסי נתונים של פטנטים. עבור תחזיות חד‑שלביות—ניחוש אילו מגיבים יכולים ליצור מוצר נתון—המערכת התאימה או עלתה על כלים חזקים קיימים בכמה מדדים, במיוחד בזיהוי נכון של הפרקורסור הראשי גם כאשר רכיבים משניים היו שונים. בתכנון רב‑שלבי, DeepRetro פתר כמעט את כל היעדים בשתי קבוצות מבחן תובעניות, כולל אוסף מולקולות דמוי‑תרופה קשות במיוחד, והשיג ביצועים טובים יותר משיטות קודמות. חשוב לציין שהמבחנים הללו רוצו במצב אוטומטי מלא, ללא תיקונים אנושיים, מה שמראה שהמסגרת יציבה גם לפני התערבות כימאים מומחים.

סיפורי מקרה מהעולם האמיתי

רק בנצ'מרקים לא תמיד מגלים מה שמעסיק כימאים באמת: האם הנתיב המוצע נראה כמו משהו שמתרגל מיומן עשוי לנסות במעבדה? לכן המחברים חקרו חמש תוצרים טבעיים מפורסמים ומורכבים מאוד, כולל האנטיביוטיקה אריתרומיצין B ודיסקודרמוליד, והאלקלואיד רזרפין. בכל מקרה DeepRetro עבד לצד כימאים אנושיים בלולאה איטרטיבית. ה-AI הציע ניתוקים וקטעי מסלול; הכימאים גזמו רעיונות מפוקפקים, תיקנו בעיות סטריאו‑כימיות עדינות, ולעיתים הניעו את המערכת בעזרת ביניים מפתח. בשני מקרים DeepRetro ייצר תכניות סינתטיות שלמות שאסטרטגייתן הכוללת לא התאימה לשום דרך שנמצאה בספרות, אף על פי שהתגובות הבודדות היו ידועות. זה מרמז שהמערכת מסוגלת לשלב כימיה מוכרת לנתיבים גלובליים חדשים באמת.

הבטחה, מגבלות ומה הלאה

DeepRetro מראה שמודלים לשוניים גדולים יכולים להיות יותר ממייצרי טקסט חכמים; כשמפקחים עליהם בקפידה ומשלבים אותם עם כלים מבוססים, הם יכולים לסייע בניווט מרחב חיפוש עצום של סינתזות כימיות אפשריות. למסגרת עדיין יש מגבלות: מודלים כלליים נוטים להציע לעתים ביניים לא יציבים או לא ריאליסטיים, ופתרונות אוטומטיים מלאים למולקולות הקשות ביותר נותרו מחוץ להישג יד ללא פיקוח אנושי. עם זאת, הביצועים החזקים של DeepRetro בבנצ'מרקים הסטנדרטיים, הצלחתו במקרי מבחן מאתגרים והפצתו כקוד‑פתוח הופכים אותו לתבנית מעשית לגילוי מדעי מסייע בינה מלאכותית בעתיד. עבור קהל שאינו מומחה, המסקנה היא שה-AI מתקדם מעבר לניבוי תכונות מולקולריות בלבד ומתחיל לעצב בשותפות מתכוני מעבדה חדשים לחלוטין, עם פוטנציאל להאיץ יצירת תרופות וחומרים בשנים הקרובות.

ציטוט: Sathyanarayana, S.V., Hiremath, S.D., Rahil Kirankumar, S. et al. DeepRetro discovers retrosynthetic pathways through iterative large language model reasoning. Sci Rep 16, 8448 (2026). https://doi.org/10.1038/s41598-026-38821-z

מילות מפתח: טרוסינתזה, מודלים לשוניים גדולים, תכנון סינתזה אורגנית, גילוי תרופות, כימיה חישובית