Clear Sky Science · he

ReactionSeek: כריית נתונים ספרותית ומציאת ידע בסינתזה אורגנית מונעת על ידי מודלים שפתיים גדולים

· חזרה לאינדקס

למה חשוב להפוך מאמרי כימיה ישנים לנתונים

פריצות דרך מודרניות ברפואה, בחומרים ובטכנולוגיות ירוקות נשענות יותר ויותר על מחשבים שמאתרים דפוסים ומציעים מולקולות חדשות. עם זאת, רוב הידע הכימי עדיין קבור במאות שנות מאמרים מדעיים, שנכתבו עבור אנשים ולא עבור מכונות. מאמר זה מציג את ReactionSeek, מערכת שלומדת למכונה לקרוא את המאמרים האלה, לחלץ פרטים ניסויים חשובים ולהפוך אותם לנתונים מסודרים. לכל מי שמתעניין כיצד בינה מלאכותית משנה את המדע — מגילוי תרופות ועד לייצור נקי יותר — העבודה הזו מציגה כיצד יתכן שנוכל סוף־סוף לשחרר את ה"ארכיון הנסתר" העצום של הכימיה.

Figure 1
Figure 1.

בעיה של ידע כימי חבוי

סינתזה אורגנית, מלאכת בניית מולקולות מורכבות ממולקולות פשוטות, עומדת בלב הכימיה. חוקרים פרסמו עשרות אלפי מתכונים מפורטים המתארים אילו מרכיבים השתמשו, באילו כמויות, בטמפרטורות מסוימות ובאיזו הצלחה. עם זאת, המידע הזה מפוזר בפסקאות טקסט, דיאגרמות, טבלאות וקבצי תמיכה. מאגרי מידע קיימים מכסים רק חלק מהנוף הזה, לעתים תכופות הם פרטיים, ולפעמים מפספסים ריאקציות יוצאות דופן. ניסויים אוטומטיים במעבדה יכולים לייצר מערכי נתונים נקיים, אך הם יקרים וחוקרים רק טווח צר של כימיה. כתוצאה מכך, רוב כלי ה-AI מאומנים על נתונים מפושטים ומנוקים ולכן אינם משקפים במלואם את העושר המבולגן של עבודת המעבדה האמיתית.

דרך חדשה ללמד בינה מלאכותית לקרוא מאמרי כימיה

ReactionSeek מתמודד עם האתגר הזה על ידי שילוב מודלים שפתיים גדולים — מערכות AI שאומנו להבין וליצור טקסט ותמונות — עם תוכנות כימיה מותאמות. המסגרת עובדת כמו קורא אוטומטי שעובר על מאמרים מאוסף הבלתי פוסק Organic Syntheses. תחילה הוא מניתח דיאגרמות ריאקציה ושרטוטי מבנים, וקושר כל מולקולה משורטטת לתפקידה בריאקציה, כגון חומר פתיחה או תוצר. לאחר מכן הוא קורא את נהלי הניסוי הכתובים כדי לחלץ פרטים כמו אילו תרכובות שומשו, באילו כמויות, כמה זמן הריאקציות נמשכו ואילו תשואות הושגו. בסופו של דבר הוא מאחד את הכל — שמות, יחידות ופורמטים — כך שאלפי מאמרים שונים ניתנים למיזוג למאגר אחד קוהרנטי וחיפוש־אפשרי.

כיצד המערכת חופרת בתמונות, בטקסט ובמספרים

לתמונות משתמש ReactionSeek במודל שפה בעל יכולות ראייה כדי לזהות אילו מבנים משורטטים מתאימים לאילו תוויות והאם הם פועלים כחומרי־תחליף או כתוצרים. מזהה שרטוטים כימי נפרד לאחר מכן ממיר את הצורות האלה לפורמטים מולקולריים דיגיטליים שמחשבים יכולים לעבוד איתם. לטקסט, פרומפטים שנוסחו בקפידה מדריכים את המודל דרך הסגנון המורכב של תיאורי הניסויים, ועוזרים לו לזהות כל תרכובת, להתאים אותה לכותרת שלה ולתפוס תנאים כגון טמפרטורה, זמן וממס. המערכת הולכת צעד נוסף על ידי חילוץ נתוני מדידה מורכבים, כמו ספקטרום תהודה מגנטית גרעינית (NMR) וספקטרומטריית מסה, שעליהם כימאים מסתמכים כדי לאשר שהמולקולה נכונה. במקומות שבהם כלי AI כלליים מתקשים — כמו תרגום שמות כימיים ארוכים למבנים מדויקים — ReactionSeek מבצעת בדיקות צולבות מול מאגרי כימיה ציבוריים ותוכניות ייעודיות להמרת שם-למבנה, כשהמודל השפתי משמש בעיקר כמאתר חכם במקום כמחליט יחיד.

Figure 2
Figure 2.

ממגזין אחד למגמות כימיות במשך מאה שנה

כדי לבחון את הגישה, המחברים שחררו את ReactionSeek על 100 כרכים של Organic Syntheses, שמכסים ריאקציות שפורסמו בין 1921 ל־2021. המערכת עיבדה מעל שלושת אלפים מאמרים בתוך דקות לכל מאמר במקום השעות הרבות שעורך ידני היה זקוק להן. היא תפסה מרכיבי ריאקציה, תנאים ותוצאות ברמת דיוק וזכירה של מעל 95% עבור שדות מפתח. מאגר הנתונים המובנה הזה מכיל כמעט ארבעה אלפים ריאקציות נבדלות ואלפיי תרכובות ייחודיות, כולן בקנה מידה גרמים מהימן ומבוקרות על ידי הקהילה. בנוסף לכך, החוקרים בנו עוזר אינטראקטיבי בשם SynChat, שמאפשר לכימאים לשאול שאלות בשפה טבעית — כולל אפשרות לצרף שרטוטי מולקולות — ולקבל תשובות שמגובה בספרות שנחפרה, יחד עם קישורים חזרה לנהלים המקוריים.

לאפשר ל-AI לגלות דפוסים במאה שנות ניסויים

ברגע שהנתוני הריאקציות אורגנו, הצוות השתמש במודל שפה מתקדם נוסף כדי לחפש מגמות רחבות לאורך זמן. מבלי להישתלה במפורש למה לצפות, ה-AI גילה מחדש שינויים ידועים בתחום: עליית קטליזה אסימטרית לאחר כ־1980, המעבר ממגיבים פשוטים מקבוצת היסוד כלפי קטליזטורים מתכתיים מתוחכמים יותר, והירידה ההדרגתית בשימוש במתכות רעילות ביותר. הוא גם זיהה שינויים בהעדפות שותפי ריאקציה ומתכות קטליטיות, המשקפים כיצד הכלים של הכימאים התפתחו במשך העשורים. תוצאות אלה מרמזות שכאשר מוזן מאגר נתונים עשיר ואמין, AI יכול לספק תובנות היסטוריות ואסטרטגיות שתואמות את ההבנה המומחית.

מה המשמעות לכך לגילוי כימי עתידי

במילים פשוטות, ReactionSeek הוא גשר בין ארכיוני כימיה מאובקים לכלים של בינה מלאכותית שמבטיחים להאיץ גילויים עתידיים. על ידי אוטומציה של העבודה המייגעת של קריאה, חילוץ וניקוי פרטי ריאקציה, הוא מספק נתונים באיכות גבוהה שמוכנים למכונה ויכולים להניע מודלים חזויים טובים יותר, תכנון ניסויים חכם יותר וכלי חיפוש אינטואיטיביים יותר עבור מדענים. בעוד שהמערכת עדיין מתמודדת עם אתגרים בשם כימיים נדירים, טבלאות מורכבות וזיהוי מבנים לא מושלם, היא כבר מראה שעיצוב פרומפטים קפדני ושילוב חכם של AI וכללים יכולים להפוך ספרות מדעית בלתי-מובנית לבסיס ידע חי. עבור כימאים ולא-מומחים כאחד, זה מצביע על עתיד שבו עשורים של עבודה ניסיונית ניתנים לחקירה, לשאול ולהרחבה בעזרת מכונות אינטיליגנטיות.

ציטוט: Li, J., Li, M., Yang, Q. et al. ReactionSeek: LLM-powered literature data mining and knowledge discovery in organic synthesis. Nat Commun 17, 3356 (2026). https://doi.org/10.1038/s41467-026-70180-1

מילות מפתח: כריית נתונים כימיים, מודלים שפתיים גדולים, סינתזה אורגנית, חילוץ טקסט מדעי, בינה מלאכותית בכימיה