Clear Sky Science · he

EPInformer: חיזוי בר-קנה ובהולם של ביטוי גנים מתוך רצפי פרומוטור-אננסר עם פרופילים אפיגנומיים מולטימודליים

· חזרה לאינדקס

מדוע חיזוי פעילות גנים חשוב

לכל תא בגופך יש למעשה את אותו ה-DNA, אך תאי מוח, דם וכבד מתנהגים בצורה שונה בתכלית. מה שמבדיל ביניהם הוא אילו גנים דלוקים או כבויים. היכולת לחזות את פעילות הגנים ישירות מתוך ה-DNA ואותות נלווים תסייע למדענים להבין כיצד תאים מתפתחים, מגיבים לסביבה ולפעמים מתפקדים באופן שגוי במחלות. המאמר מציג את EPInformer, כלי חישובי חדש המשתמש בהתקדמויות האחרונות בבינה מלאכותית כדי לחזות פעילות גנים בדיוק ויעילות גבוהים יותר משיטות קודמות.

Figure 1
Figure 1.

כיצד מתגים מרוחקים ב-DNA שולטים על גנים

הגנים אינם נשלטים רק על־ידי הקטע הקצר ב-DNA שבו מתחיל הקריאה שלהם (הפרומוטור). הם מושפעים גם מחלקי DNA מרוחקים הנקראים אננסרים, הפועלים כמתגים מרוחקים. מתגים אלה יכולים להיות במרחק של עשרות או אפילו מאות אלפי בסיסים מהגן, ומתעגלים בחלל התלת‑ממדי כדי לייצר מגע עם הפרומוטור. בנוסף לרצף ה-DNA עצמו, תגיות כימיות וסמנים חלבוניים לאורך ה-DNA — המכונים יחד אותות אפיגנומיים — מעידים אילו מתגים פעילים בסוג תא מסוים. מודלים מחשוביים מסורתיים התקשו לשלב את כל המידע הזה, ובמיוחד את השפעתם של מתגים מאוד מרוחקים, כדי לחזות את עוצמת הביטוי של גן.

מודל בינה קומפקטי הקורא אותות רבים בבת אחת

EPInformer בנוי על ארכיטקטורת בינה מודרנית הנקראת טרנספורמר, שהותאמה ממודלים בשפה. במקום לקרוא משפטים, הוא קורא קטעי DNA סביב גן והאננסרים המועמדים שלו. המודל ממיר תחילה כל רצף פרומוטור ואננסר סמוך ל״הטמעה״ מספרית שתופסת דפוסים חשובים. ניתן גם לצרף ערוצים נוספים המייצגים סימני כימיה מקומיים על ה-DNA, פתיחות הכרומטין ומדידות של כמה פעמים אזורים שונים נוגעים זה בזה בתלת‑ממד. מנגנון תשומת לב מיוחד מתמקד כיצד כל מתג פוטנציאלי מתקשר עם הפרומוטור, בעוד שהוא מתעלם במכוון מאינטראקציות בין המתגים עצמם. שלב החיזוי הסופי ממזג את הייצוג הנלמד הזה עם תכונות בסיסיות של ה-RNA של הגן כדי להפיק את רמת הפעילות הצפויה.

תחזיות טובות יותר עם משאבי חישוב מועטים יותר

לצורך בדיקת EPInformer, המחברים אימנו והעריכו אותו על מערכי נתונים ציבוריים גדולים הפרופילים נגישות DNA, סימני כימיה, מגעים תלת‑ממדיים ופעילות גנים בכמה שורות תאים אנושיות. הם השוו בין גרסאות שונות של המודל שהשתמשו רק ברצף ובמרחק, הוסיפו אותות אפיגנומיים, או כללו בנוסף מפות מגע תלת‑ממדיות. בכל מבחני ה-RNA הרגיל ובבדיקה ממוקדת פרומוטור הנקראת CAGE, EPInformer הציג ביצועים עקביים הטובים משיטות מובילות, כולל מודלים גדולים המבוססים על רצף בלבד הסורקים מקטעים ארוכים של DNA. יש לציין כי הוא עשה זאת עם חלק זעיר מהפרמטרים—כ־0.4 מיליון לעומת מאות מיליוני פרמטרים—מה שאיפשר אימון על מעבד גרפי יחיד במשך בערך שעה. זה הופך את המידול המדויק של פעילות גנים לנגיש למעבדות רבות בלי אשכולות חישוב ענקיים.

Figure 2
Figure 2.

מציאת מתגים מפתח ומילות בקרה שלהם

מכיוון שמנגנון התשומת לב של EPInformer מדרג עד כמה כל אננסר מועמד משפיע על גן, הוא יכול גם לסייע לזהות את המתגים החשובים ביותר בסוג תא נתון. המחברים הראו כי ציוני התשומת לב האלה התאוששו ביתר דיוק זוגות אננסר–גן שאושרו בניסויים לעומת שיטת דירוג נפוצה המבוססת על פעילות ומגע בלבד, במיוחד עבור מתגים מרוחקים. הם השתמשו בנוסף בכלי פרשנות כדי להתמקד בתוך רצפי ה-DNA של האננסרים המדורגים גבוה ולזהות תבניות קצרות חוזרות התואמות אתרי קשירה ידועים של פקטורי שעתוק — חלבונים הפועלים כמו מילות בקרה בגנום. בתאי דם, לדוגמה, EPInformer זיהה מחדש מוטיפים לווסתי־על של התפתחות תאי הדם האדומים, מה שמרמז שהוא למד חוקים ביולוגיים משמעותיים ולא רק שינון של נתונים.

מה משמעות הדבר לביולוגיה ולרפואה בעתיד

באופן פשוט, EPInformer מעניק לחוקרים עדשה חדה וזולה יותר לבחינת האופן שבו גנים נדלקים ונכבים בסוגי תאים שונים על ידי שילוב רצף ה-DNA, תגיות כימיות וקיפול תלת‑ממדי של הגנום. יכולתו להבהיר אילו מתגים מרוחקים חשובים עבור גן מסוים, ואילו מילות בקרה הם מכילים, יכולה להנחות ניסויים הבודקים כיצד מוטציות או עריכות מכוונות משפיעות על פעילות גנים. ככל שהשיטה תורחב לסוגי תאים נוספים ולזני גנים שונים, היא עשויה לסייע להסביר כיצד שינויים שאינם מקודדים בגן תורמים לתכונות מורכבות ולמחלות, וכן להנחות עיצוב טיפולים גנטיים מדויקים יותר.

ציטוט: Lin, J., Li, Z., Zhao, Y. et al. EPInformer: scalable and integrative prediction of gene expression from promoter-enhancer sequences with multimodal epigenomic profiles. Nat Commun 17, 3975 (2026). https://doi.org/10.1038/s41467-026-70535-8

מילות מפתח: חיזוי ביטוי גנים, אינטראקציות אננסר-פרומוטור, אפיגנומיקה, למידה עמוקה בגנומיקה, ארכיטקטורת הכרומטין