Clear Sky Science · he
חיזוי אמין של מספרי ועדת האנזימים באמצעות טרנספורמר פירוש–היררכי
מדוע חיזוי תפקידי אנזימים חשוב
כל תא חי מתנהל באמצעות עשרות־אלפי מכונות כימיות זעירות הנקראות אנזימים. לכל אנזים יש "תפקיד" מוגדר, והתפקיד מקודד במספר ועדת האנזימים (EC) — קוד בעל ארבעה חלקים הדומה לכתובת. שיוך נכון של מספרי EC חיוני להבין מטבוליזם, לעצב תרופות חדשות, לשנות מיקרואורגניזמים לייצור דלקים או תחליפי פלסטיק, ולעקוב כיצד מערכות אקולוגיות מעבדות מולקולות. ניסויים לקביעת פונקציות אנזימטיות איטיים ויקרים. המחקר הזה מציג את HIT-EC, מודל בינה מלאכותית חדש שיכול לחזות באמינות מספרי EC מתוך רצפי חלבון ובו־לבד להסביר מדוע נעשתה כל תחזית.

מערכת דואר עבור תפקידי אנזים
מערכת ה‑EC מקצה לכל אנזים קוד בן ארבע רמות כגון 1.1.1.37. הספרה הראשונה מצביעה על מחלקה רחבה (למשל אנזימים שמעבירים אלקטרונים או קבוצות כימיות), והספרות הבאות מתארות בפרטנות את תגובת האנזים. ההיררכיה הזאת מועילה אך יוצרת בעיית חיזוי תובענית: המודל חייב לנבא נכונה את כל ארבע הרמות מתוך אלפי קודים אפשריים, גם כאשר אנזימים מסוימים נדירים או מתוארים חלקית במסדי נתונים (למשל 3.5.-.-, כאשר הרמות המפורטות חסרות). שיטות מחשוב קיימות משתמשות במבנה תלת־ממדי, בדמיון רצפי או בלמידה עמוקה, אך נתקעות לעתים קרובות עם אנזימים נדירים, מתעלמות מנתונים מתויגים חלקית, ומתנהגות באופן של "קופסה שחורה" שמספקת מעט תובנה לגבי סיבת התחזית.
בינה בעלת ארבע קומות שעוקבת אחר סולם ה‑EC
HIT-EC (Hierarchical Interpretable Transformer for EC prediction) בנוי כדי לשקף את ההיררכיה בעלת ארבע הרמות של EC. הוא מקבל רצף חלבון גולמי ומעבירו דרך ארבע שכבות טרנספורמר, שכל אחת מוקדשת לרמת EC אחרת. זרימות מקומיות מקשרות כל רמה עם הקודמת לה, ומבטיחות שהחלטה מדויקת בדירוג הרביעי תהיה תואמת להחלטות הכלליות (הראשונה והשנייה). במקביל, זרימה גלובלית שומרת על ההקשר המלא של הרצף בכל שלב. המודל גם יכול להילמד על רצפים עם תיוגים לא שלמים באמצעות "אובדן מוסתר" שמזניח פשוט רמות EC חסרות במקום להשליך את הרצף מהאימון. כך HIT-EC לומד מהחלק הגדול של חלבונים במסדי נתונים מבוקרים שמתויגים רק חלקית.
עוקף יריבים בדיוק ובמהירות
המחברים הרכיבו מערך נתונים גדול ומסונן בקפידה של כ‑200,000 אנזימים עם 1,938 מספרי EC שונים מ‑Swiss‑Prot ו‑Protein Data Bank. בבדיקות החזק־החוצה החוזרות, HIT-EC התעלה על שלוש שיטות מובילות (CLEAN, ECPICK ו‑DeepECtransformer) הן במדדי F1 הכוללים והן במדדי F1 לכל מחלקה — מדד המאזן בין פגיעות חיובית מדויקת לבין אזעקות שגויות. המודל היה חזק במיוחד בקודים נדירים עם 25 דוגמאות או פחות, שבהם שיטות קודמות לרוב מתקשות. HIT-EC גם הכליל היטב לאנזימים שנוספו ל‑Swiss‑Prot אחרי האימון ולגנומים מלאים מחיידקים מגוונים, כולל זני Escherichia coli, Bacillus subtilis ו‑Mycobacterium tuberculosis שנחקרו היטב. למרות המורכבות שלו, המודל היה יעיל מאוד: על GPU סטנדרטי הוא עיבד חלבון בכ־38 מילישניות — עשרות פעמים מהיר יותר ממתחרים שתלויים בחיפושי דמיון איטיים או באנסמבלים של מודלים רבים.

לראות מה המודל "מביט" בו
כדי להפוך את התחזיות לאמינות, HIT-EC תוכנן להראות אילו חומצות אמינו ברצף השפיעו על כל החלטת רמת EC. המחברים בנו מסלול פרשנות שמשלב משקלי תשומת לב עם מידע גרדיאנטי כדי לדרג את החשיבות של כל עמדה. הם ואלידטו ציונים אלה על משפחות אנזימים מתוארות היטב. למשל, במשפחת ציטוכרום P450 (CYP106A2) הדגיש HIT-EC מוטיבים פונקציונליים ידועים כגון אזורי קשירה לחמצן ולHEME, וזיהה מוטיב עדין EXXR שמודל ביקורת אחד פספס. עבור נציגים קלאסיים מכל מחלקת EC עליונה — כגון אלכוהול דהידרוגנאז, הקסוקינאז וקארבוניק אנידראז — ציוני הרלוונטיות של המודל הדליקו מוטיבים חתימתיים ואתרי קשירת סובסטרט שמופיעים בספרי לימוד. פרשנויות אלו מספקות "ראיה" ביוכימית שהמודל מבסס את החלטותיו על תכונות משמעותיות ולא על קשרים אקראיים.
הנחיה לעבודה על אנזימים נדירים ומתפתחים
הצוות בחן עוד את HIT-EC על שני אנזימים פחות נחקרים שחשובים לניקוי זיהום: ציטוכרום P450 המעורב בפירוק זיהומים ארומטיים, והידרולאז מפרק PET מ‑Streptomyces שעוזר לעכל מולקולות הקשורות לפלסטיק. שני האנזימים תוארו ניסויית אך לא קיבלו שיוך EC רשמי. HIT-EC חזה נכון את מספרי ה‑EC הצפויים והבליט דפוסי מוטיבים ושאריות קטליטיות שתואמות את המידע המובא ממחקרים מבניים וביוכימיים. בסך הכול, העבודה מראה ש‑HIT-EC לא רק יכול לקבוע מספרי EC בדיוק ובמהירות טובים יותר מכלים קיימים, במיוחד עבור פונקציות נדירות, אלא גם להסביר מדוע אנזים מסוים מאמין לבצע תגובה כימית נתונה. השילוב הזה של ביצועים ויכולת פרשנות הופך אותו למנוע מבטיח לאנוטציה המונית ואמינה של אנזימים בגנומיקה, בביוטכנולוגיה ובמחקר סביבתי.
ציטוט: Dumontet, L., Han, SR., Lee, J.H. et al. Trustworthy prediction of enzyme commission numbers using a hierarchical interpretable transformer. Nat Commun 17, 1146 (2026). https://doi.org/10.1038/s41467-026-68727-3
מילות מפתח: חיזוי פונקציית אנזים, למידה עמוקה בביולוגיה, מודלים מבוססי טרנספורמר, אנוטציית חלבונים, אנזימים לביורמידיאציה