Clear Sky Science · he

סקר על מודלים לשוניים גדולים בבִיוֹלוגיה וכימיה

2026-04-08 · חזרה לאינדקס

לימוד המחשבים את שפת המולקולות

הביולוגיה והכימיה המודרניות מייצרות כיום יותר נתונים ממה שכל אדם יוכל לקרוא. מאמר זה מסביר כיצד מודלים לשוניים גדולים—אותו סוג של בינה מלאכותית שעומד מאחורי צ’טבוטים—מונגשים מחדש כדי לקרוא ולכתוב את ה"שפות" של DNA, חלבונים ומולקולות קטנות. לקוראים שאינם מומחים, המשיכה ברורה: הכלים הללו מבטיחים להאיץ גילוי תרופות, לשפר את הבנת המחלות ואפילו לספק מחשבים שיעזרו לתכנן ולהפעיל ניסויים במעבדה.

ממילים ומשפטים לגנים ומולקולות

מודלים לשוניים נבנו במקור כדי לחזות את המילה הבאה במשפט. מדענים הבינו שרבים מהרשומות הביולוגיות והכימיות, כגון רצפי חלבונים או קידודים ליניאריים של מולקולות, נראים גם הם כמחרוזות. אם בינה מלאכותית יכולה ללמוד דפוסים בשפה הטבעית, יתכן שהיא גם תלמד דפוסים שמקשרים רצף גן לתפקידו בתא, או נוסחה כימית לתכונותיה. הסקירה מראה כיצד חוקרים ממירים בקפידה מולקולות ותאים תלת־ממדיים מסובכים למחרוזות חד־ממדיות, גרפים או ענני נקודות שהבינה יכולה לעבד. שלב העיצוב הזה קריטי, כי האופן שבו המידע מיוצג מגביל את מה שהמודל יכול ללמוד ואיזה סוגי תגליות אפשר לבצע.

קוראים חלבונים, DNA וחיי תאים בודדים

מוקד מרכזי הוא "מודלים לשוניים ביולוגיים" שעובדים עם מערכות חיות. עבור חלבונים, מודלים שהוכשרו על מיליוני רצפים יכולים כעת לחזות כיצד שרשרת ליניארית של חומצות אמינו תתקפל למבנה תלת־ממדי, תחרותי מול טכניקות מעבדה דורשות זמן. חלק מהמודלים הולכים רחוק יותר ומציעים עיצובים חדשים של חלבונים שמעולם לא התקיימו בטבע אך עשויים לשמש כתרופות או אנזימים תעשייתיים. עבור DNA ו‑RNA, חוקרים מתאימים מודלינג לשוני לטיפול במחרוזות ארוכות המבוססות רק על ארבע אותיות, מה שמאפשר לבינה לזהות אזורי בקרה בגנום או לחזות את השפעתם של מוטציות. ברמת התא, שיטות חדשות מתייחסות לפרופיל פעילות הגנים של כל תא כאל מסמך שמילותיו הן גנים, מה שמאפשר למודלים לקבץ סוגי תאים, לחזות תגובות לטיפולים ולחבר נתוני מעבדה לידע ביולוגי קודם.

לתת לכימיה דקדוק דיגיטלי משלה

מודלים לשוניים כימיים מתמודדים עם עולם המולקולות הקטנות, כגון מועמדי תרופות. כאן כימאים משתמשים בקודי טקסט קומפקטיים כדי לתאר מבנים, שניתנים להזנה למודלים לשוניים בדומה למשפטים. מודלים בסגנון מקודד (encoder) מתמקדים בהבנה: הם לומדים טביעת אצבע פנימית עשירה לכל מולקולה שעוזרת לחזות תכונות כמו מסיסות או רעילות. מודלים בסגנון מפענח (decoder) מתמקדים ביצירה: הם מייצרים מולקולות חדשות שלב אחר שלב, תוך הטיה לעבר תכונות רצויות. מודלים בזוגות שמתרגמים רצף אחד לאחר משמשים לחזות תוצאות של תגובות או להציע דרכי סינתזה של תרכובת יעד. מערכות מתקדמות משלבות טקסט, תרשימים דו־ממדיים, צורות תלת־ממדיות וגרפים כדי לאפשר לבינה להסיק מעבר לכמה דרכים לתאר את אותה כימיה.

כיצד המודלים האלה לומדים ומשתפרים

מתחת למכסה המנוע, מודלים לשוניים ביוכימיים נשענים על טריקים חכמים לאימון. הם לרוב מתחילים בלמידה ללא פיקוח עצמי (self‑supervised), שבה הבינה לומדת לנחש חלקים חסרים בקלט, וכך נאלצת לתפוס את המבנה הבסיסי בלי תוויות אנושיות. אימון רב־משימתי מאפשר למודל אחד לתרגל מספר בעיות קשורות בו־זמנית, ולחזק כישורים כלליים. עיצובים אחרים מאפשרים למודל לפנות למסדי נתונים חיצוניים בעת מענה על שאלות, ולבסס את הפלטים בכימיה ובביולוגיה אמיתית ולהפחית טענות מומצאות. לאחר מכן, סבבים קטנים של אימון מפוקח מחדדים את המודל למשימות ספציפיות כגון חיזוי בטיחות תרופה או תכנון תגובה. הסקירה גם סוקרת את מערכי הנתונים הציבוריים הרחבים ואת הבנצ’מרקים שמאפשרים לשפוט האם מודל חדש באמת טוב יותר, ולא רק גדול יותר.

לאחר עוזרי מעבדה מבוססי בינה ושימוש אחראי

מעבר למודלים בודדים, המחברים מדגישים שינוי כלפי מערכות "אייג’נטיות" אינטראקטיביות. בהגדרות אלה, מודל לשוני יכול לקרוא לכלים מיוחדים—למשל תוכנה שבודקת תגובות, מחפשת בספרות או שולטת ברובוטים במעבדה—ולשרשר את התוצרים שלהם יחד. הדגמות ראשוניות מראות שאייג’נטים כאלה מציעים נתיבי סינתזה, מעצבים ניסויים ואפילו מנהלים מעבדות אוטומטיות. הסקירה מסכמת כי, אם יאובטחו באמצעי זהירות חזקים, הערכה שקופה ותשומת לב אתית ורגולטורית קפדנית, מודלים לשוניים ביוכימיים אלה עשויים להפוך לתשתית מרכזית במדע. עבור לא-מומחים, המסר המרכזי הוא שבינה מלמדת לקרוא ולכתוב את קוד החיים והחומר, עם פוטנציאל לקצר את הדרך מרעיון לתרופה, חומר או תובנה ביולוגית.

ציטוט: Ashyrmamatov, I., Gwak, S.J., Jin, SY. et al. A survey on large language models in biology and chemistry. Exp Mol Med 58, 970–980 (2026). https://doi.org/10.1038/s12276-025-01583-1

מילות מפתח: מודלים לשוניים גדולים, גילוי תרופות, מבנה חלבון, מודלים לשוניים כימיים, גנומיקה