Clear Sky Science · he

אימון מודל שפה גנומי עם וריאנטים לשיפור המידול של גנומיקה פונקציונלית

· חזרה לאינדקס

ללמד מחשבים "לקרוא" את שפת ה‑DNA

ל‑DNA של כל אדם יש מיליוני הבדלים זעירים, או וריאנטים, שעוזרים לעצב הכל — מגובה ועד סיכון למחלות. מדענים יודעים שרבים מהוריאנטים הללו משפיעים על מידת ההדלקה או הכיבוי של גנים, אך היה קשה לקשר בין האותיות בגנום לבין פעילות הגן. המחקר הזה מציג מודלים חדשים של בינה מלאכותית המטפלים ב‑DNA כבלשון, ומשתמשים בתבניות של וריאנטים שנצפו במאות אלפי אנשים כדי לחזות טוב יותר כיצד גנים מתנהגים בתאים ובפרטים מסוימים.

Figure 1
Figure 1.

מדוע ניתן לטפל ב‑DNA כמו בשפה אנושית

בדיוק כפי שמילים מקבלות משמעות שונה בהתאם להקשר במשפט, מקטעי DNA יכולים למלא תפקידים שונים בהתאם ל"הקשר" שלהם בגנום. אזורים רגולטוריים יכולים לשבת רחוק מהגנים שהם שולטים בהם, והקטע אותו יכול לתרום למספר פונקציות ביולוגיות. החוקרים בונים על הרעיון שהתבניות לטווח הארוך הללו מזכירות רב־משמעות ותלות בהקשר כפי שנראים בשפה טבעית. באמצעות ארכיטקטורות של רשתות עצביות שפותחו במקור לעיבוד טקסט, הם שואפים ללמוד כיצד ה"דקדוק" של ה‑DNA ושונות גנטית אנושית יחד מעצבים את פונקציית וביטוי הגנים.

בניית מודל שפה גנומי מתוך וריאציה אנושית אמיתית

החוקרים יצרו את UKBioBERT, מודל שפה ל‑DNA שאומן הן על הגנום הייחוס האנושי והן על יותר מ‑13 מיליון וריאנטים מכ‑כ‑300,000 משתתפי UK Biobank. במהלך האימון המודל מוצג רצף DNA משונן שבו בסיסים מסוימים מוסתרים וצריך לנחשם מההקשר — בדומה למילוי מילים חסרות במשפט. התהליך האוטו‑ממומן הזה מאלץ את המודל להטמיע אילו תבניות רצפים נוטות להופיע יחד וכיצד וריאנטים משנים תבניות אלו. הצוות בודק את הייצוגים הפנימיים של המודל על‑ידי בדיקה האם רצפים של גנים בעלי פונקציות ידועות דומות מתקרבים זה לזה במרחב הלמידה. לפי מספר מדדי אשכולות, UKBioBERT מפריד פונקציות גנטיות בצורה ברורה יותר ממודלים גנומיים קודמים, מבלי שאי פעם נמסרו לו אותן פונקציות במהלך האימון.

מתבניות רצף לפעילות גנים בתאים ובאנשים

ללמוד את "שפת" ה‑DNA שימושי רק אם זה מסביר ביולוגיה אמיתית, ובמיוחד ביטוי גנים — הרמה שבה גנים נדלקים בסוגי תאים ואנשים שונים. המחברים משלבם את ההטמעות של UKBioBERT במסגרת למידת עומק קיימת שמנבאת פעילות גנים מתוך DNA. ברמת קו־תאים הם משפרים ארכיטקטורה בשם EPInformer, שכבר משלבת רצפי פרומוטר ואננסר עם אותות אפיגנטיים. הוספת ההטמעות של UKBioBERT ותיאורי טקסט נפרדים של פונקציות גנים מובילה לחיזוי מדויק יותר של ביטוי גנים במספר קווי תאים אנושיים, עם מתאמים גבוהים יותר בין הערכים החזויים לערכים הנמדדים וביציבות רבה יותר בחצאי‑הצלבה.

תחזיות מותאמות אישית ומה עושה גן לחזוי

הצוות ממשיך למשימה קשה יותר: לחזות ביטוי גנים לפרטים בודדים על סמך רצפי הגנום המלא שלהם בלבד. הם משתמשים תחילה בהטמעות של UKBioBERT עם שיטה סטטיסטית מסורתית כדי לחזות ביטוי ל‑41 גנים מייצגים בקבוצת GTEx. העשייה מתקרבת או מעט מאחורה לעומת קווי בסיס חזקים שמשתמשים בתכונות גנטיות מעוצבות ידנית, ומתעלה משמעותית על מודל רצף לא‑מכוון (unfine‑tuned). באופן מעניין, גנים שונים מאוד ברמת החיזוי של ביטויים שלהם. שונות זו לא מתוארת היטב על‑ידי מדדים סטנדרטיים כמו יורשיות. במקום זאת, גנים שרמות הביטוי שלהם נוטות להיבנות לאשכולות ברורים בין אנשים — דפוסים שההטמעה של UKBioBERT יכולה ללכוד — נוטים להיות חזויים יותר. גנים המעורבים בהרבה פונקציות ביולוגיות שונות קשים יותר לחיזוי רק מתוך רצף.

Figure 2
Figure 2.

מיזוג מודלים לחיזויים חזקים יותר ברמת הפרט

כדי לשפר את החיזוי המותאם אישית, המחברים ממזגים את UKBioBERT עם מודלים חזקים של רצף‑ל‑פונקציה כמו Enformer ו‑Borzoi, ויוצרים את UKBioFormer ו‑UKBioZoi. ההיברידים האלה משלבים מידול רצף לטווח ארוך עם הטמעות המודעות לוריאנטים ומכווננים ביעילות באמצעות טכניקות לחיסכון בפרמטרים. על פני אותו מערך גנים, UKBioFormer לעיתים קרובות מנצח גם את מודל העומק הטוב ביותר קודם (Performer) וגם גישות סטטיסטיות סטנדרטיות עבור גנים שביטוים סבירית לחזוי. הוא גם מראה הכללה משופרת כאשר מודלים שאומנו על אנשים ממוצא אירופי מיושמים על אינדיבידואלים אפרו‑אמריקאים, מה שמעיד שלמידה מרצף גולמי יחד עם וריאנטים של אוכלוסיה לוכדת חלק מהלוגיקה הרגולטורית המשותפת בין קבוצות.

לראות כיצד וריאנט יחיד משנה פעילות גן

מכיוון ש‑UKBioFormer הוא רשת עצבית, ניתן לחקור אותו כדי לחשוף כיצד וריאנטים בודדים משפיעים על תחזיותיו. המחברים משתמשים בשיטות מבוססות שיפוע וניסויים של מוטציה במחשב כדי להעריך כיצד שינוי בבסיס מסוים משנה את הביטוי החזוי. עבור מספר גנים, כולל אחד בשם JUP, המודל מנבא נכון את הכיוון ואת הגודל המשוער של ההשפעות עבור רוב ה‑eQTLs הידועים, כולל חלק מהנדירים. הוא גם מדגיש מוטיפים מקומיים ברצף סביב הווריאנטים הללו שתואמים דפוסי קשירה ידועים של חלבונים רגולטוריים. זה מראה שהמודל אינו רק מתאים רמות ביטוי כלליות, אלא לומד קישורים מכניסטיים בין מוטיפים רצפים, וריאנטים ורגולציה של גנים.

מה העבודה הזו משמעותית לגנומיקה ולרפואה

המחקר מדגים שאימון מודלים שפתיים גנומיים ישירות על מאגרי וריאנטים אנושיים גדולים מניב ייצוגי DNA עשירים יותר שמשפרים חיזוי ביטוי גנים ופירוש וריאנטים. למרות שלא כל גן ניתן לחזות רק מתוך רצף, מסגרת העבודה המשולבת UKBioBERT–UKBioFormer מתפקדת היטב במיוחד עבור גנים שהדפוסים של ביטוים מובנים ומונעים על‑ידי וריאנטים. היא גם מספקת דרך פרקטית לחקור אילו וריאנטים סביר שישנו פעילות גן לפני הרצת ניסויים יקרים. ככל שהמאגרי נתונים יהפכו למגוונים יותר ושיטות לאימון מרב‑גני ישתפרו, מודלים כאלה יכולים להפוך לכלים חשובים לקישור גנטומות אישיות לתכונות מולקולריות ולבסוף להנחיית מחקר במחלות מושפעות גנטית.

ציטוט: Liu, T., Zhang, X., Lin, J. et al. Pre-training genomic language model with variants for better modeling functional genomics. npj Artif. Intell. 2, 46 (2026). https://doi.org/10.1038/s44387-026-00103-4

מילות מפתח: מודלים שפתיים גנומיים, חיזוי ביטוי גנים, וריאנטים גנטיים, גנומיקה פונקציונלית, UK Biobank