Clear Sky Science · he

משרשר יחיד למסלולי אבולוציה: מודלים לשוניים לחלבונים לוכדים את הפוטנציאל האבולוציוני של SARS‑CoV‑2

· חזרה לאינדקס

מדוע זה חשוב למגפות עתידיות

ברוב תקופת מגפת COVID‑19 המדענים נאלצו לרדוף: וריאנטים חדשים הופיעו בעולם האמיתי לפני שמעבדות הספיקו למדוד מה משמעות השינויים לגבי מידבקות או הימנעות מנוגדנים. המאמר הזה מראה שמודלים חישוביים חזקים, שתוכננו במקור להבנת שפה אנושית, מסוגלים לקרוא במקום זאת את "השפה" של חלבונים ולהסיק כיצד חלבון הספייק של נגיף הקורונה צפוי להשתנות ולהסתגל—בעזרת רצף אבני הבניין שלו בלבד. יכולת זו יכולה לסייע לחוקרים לסמן וריאנטים מעוררי דאגה מוקדם יותר ועלולה להתכלל למגוון פתוגנים אחרים.

ללמד מחשבים לקרוא חלבונים

המחברים עובדים עם מודל לשוני לחלבונים בשם ESM‑2, שאומן על עשרות מיליוני רצפי חלבונים מעבר לעץ החיים. בדומה לאופן בו מודל שפה לומד דקדוק ומשמעות מהמילים, ESM‑2 לומד אילו תבניות חומצות אמינו "הגיוניות" בחלבונים אמיתיים. כאשר מוזן אליו רצף חלבון הספייק של SARS‑CoV‑2, המודל מייחס לכל מוטציה אפשרית שני ציון מפתח: ציון דקדוקיות שמשקף עד כמה רצף משונה מתאים לכללים שנלמדו של מבנה החלבון, וציון סמנטי שמודד כמה החלבון משתנה ברמת הייצוג הפנימי של המודל. ציונים אלה ניתנים לחישוב לכל מוטציה בודדת על ידי מחשב, אסטרטגיה הידועה כסריקה מוטציונלית עמוקה במחשב (in silico deep mutational scanning).

Figure 1
Figure 1.

מיפוי היכן שהוירוס יכול — ואף לא יכול — להשתנות

בסריקה של כל שינוי חד‑אות across הספייק, הצוות מצא ש‑ESM‑2 משחזר במובן טבעי את התכונות המבניות המרכזיות של החלבון. החלק S2, היוצר את הגבעול היציב שמניע מיזוג ממברנות, צפוי להיות מוגבל מאוד: רוב המוטציות שם מורידות בחדה את הדקדוקיות, מה שמעיד שהן יזיקו למבנה או לתפקוד החלבון. לעומת זאת, אזורים על פני השטח החיצוני של החלק S1, כולל התחום הטרמינלי־N והתחום הקושר‑קולטן (RBD), סובלים הרבה יותר שינויים. זה תואם למה שרואים בגנומי הוירוס האמיתיים, שבהם אזורים חשופים אלה מצטברים מוטציות שעוזרות לווירוס להתחבר לתאים ולהתחמק מנוגדנים בעוד הליבת המבנה נשארת שמורה יותר.

חושפים עבודת צוות חבויה בין מוטציות

חלבונים אינם רק אוסף של אתרים עצמאים; מוטציה אחת יכולה לשנות כמה מקובלותן של אחרות, תופעה שנקראת אפיסטזיס. החוקרים חקרו זאת על ידי התחלה מספייק של אומיקרון BA.1 וה"החזרה" החישובית של המוטציות המאפיינות שלו חזרה אחת‑אחת לרצף המקורי של ווהאן. כל החזרה משנה את ההסתברויות של חמצני אמינו בכל עמדה אחרת במודל. שינויים גדולים חושפים זוגות אתרים שהגורל שלהם מקושר. באמצעות גישה זו, המחקר מדגיש מוקדי משנה ידועים כגון עמדות סביב 484 ו‑501 בתחום הקושר‑קולטן, אשר יחד מעצבים גם התחמקות חיסונית וגם קישור לקולטן ACE2. הוא גם מצביע על צבירים פחות ברורים של שרשראות חומצות אמינו שהאינטראקציות ביניהן אושרו מאוחר יותר במחקרים ניסיוניים של גדילת אומיקרון משופרת בתאי אפיתל אפי אנושיים, מה שמרמז שהמודל לוכד קישורים מבניים ותפקודיים אמיתיים.

Figure 2
Figure 2.

מעקב אחר האבולוציה הוירלית וזיהוי חריגים

מעבר למוטציות בודדות, המחברים שאלו האם ESM‑2 יכול לפענח רצפי וריאנטים שלמים כשהם מופיעים עם הזמן. הם משחילים (embed) רצף ספייק אחד לכל קו שיוחס לשם של SARS‑CoV‑2 וממקמים אותם במפה דו‑ממדית באמצעות שיטה שנקראת evo‑velocity, שמסיקה גם כיוון שינוי דומיננטי. הפריסה המתקבלת משקפת את עץ האבולוציה הידוע: הקווים המוקדמים מצטופפים יחד, ולאחר מכן ענפים המתאימים ל‑Alpha, Delta, Omicron וקווי רקומביננט מתפצלים בסדר הכרונולוגי הנכון. סטטיסטיקות סיכום פשוטות כמו דקדוקיות ממוצעת ומרחק סמנטי מפרידות בבירור בין קווים שאינם וריאנטים, וריאנטים מוקדמים של דאגה, ווירוסים בסגנון אומיקרון, מה שמראה שהייצוג הפנימי של המודל עוקב אחרי שינויים אבולוציוניים משמעותיים.

הפיכת הווקטורים הסמנטיים למערכת התרעה מוקדמת

כדי לבדוק מעקב מעשי, הצוות מציג ציון סמנטי דינמי: כל רצף ספייק חדש מושווה לא רק לזן המקורי מווהאן אלא לממוצע של הווירוסים שנספו בשלושת החודשים הקודמים. יישום ציון זה על נתוני ריצוף צפופים מבריטניה מייצר גלים מובחנים כאשר Alpha, Delta ותתי‑השושלות של Omicron עולות ויורדות. רצפים הנמצאים סטיית תקן אחת או שתיים מהממוצע הנוכחי מסומנים כ'חומרי דאגה' פוטנציאליים. באמצעות חריגים מוקדמיים אלה בלבד, השיטה הייתה מסמנת את רוב וריאנטי הדאגה שהוגדרו על‑ידי ארגון הבריאות העולמי וכמה צאצאים חשובים מאוחרים יותר כגון JN.1, ובאותו הזמן חושפת אילו עמדות ספציפיות בספייק משתנות שוב ושוב בקווים המתהווים.

מה משמעות הדבר לאיומים עתידיים

בסך הכל, המחקר מראה שמודל לשוני כללי לחלבונים, בשימוש ישיר כפי שהוא, יכול לזהות אילו חלקים בחלבון הספייק של SARS‑CoV‑2 גמישים, אילו אתרים קריטיים מבחינה מבנית, כיצד מוטציות פועלות יחד, וכיצד הספייק של הוירוס נדד בחלל האבולוציוני במשך המגפה. מכיוון שהשיטה פועלת מרצף חלבון יחיד ואינה מסתמכת על יישור קודם או נתונים מבניים מפורטים, היא ניתנת ליישום מוקדם מאוד בהתפרצות, כאשר ידועים רק מספר מועט של גנומים. ככל שמודלים דומים יעודנו ויותאמו למאגרי נתונים ויראליים, הם עלולים להפוך לחלק חשוב מציוד החיזוי של האופן שבו פתוגנים חדשים מתפתחים ולסייע בעדיפות וריאנטים למחקר מעבדתי ולעיצוב חיסונים.

ציטוט: Lamb, K.D., Hughes, J., Lytras, S. et al. From single-sequences to evolutionary trajectories: protein language models capture the evolutionary potential of SARS-CoV-2. Nat Commun 17, 2938 (2026). https://doi.org/10.1038/s41467-026-69569-9

מילות מפתח: מודלים לשוניים לחלבונים, חלבון הספייק של SARS‑CoV‑2, אבולוציה ויראלית, אפיסטזיס, מעקב אחר וריאנטים