Clear Sky Science · he
רשת Retentive מקדמת דיגום שפה של RNA לשרשראות ארוכות
לימוד מחשבים "לקרוא" את הודעות ה‑RNA של החיים
כל תא בגופך מלא ב‑RNA, המולקולה שעוזרת להפוך הוראות גנטיות לחומר חי. אך הביולוגים של היום מתמודדים עם שיטפון של נתוני RNA שאיש אינו יכול לקרוא שורה אחר שורה. מאמר זה מציג את RNAret, מודל בינה מלאכותית קומפקטי ש"קורא" רצפי RNA בדומה לשפה ויכול לטפל בקטעים ארוכים מאוד של טקסט גנטי. מטרתו לחשוף דפוסים סמויים שמסבירים כיצד RNA מתקפלים, מתקשרים וכיצד להבדיל תבניות פעילות מרעש רקע — וכל זאת תוך שימוש בכוח חישובי נמוך בהרבה מהכלים הקיימים.
דרך חדשה לראות דפוסים ב‑RNA
RNAret מבוסס על עיצוב בינה מתקדמת שנקרא רשת Retentive, שהוצע כהחלפה לטרנספורמרים, המנועים מאחורי מודלים גדולים של שפה לטקסט אנושי. במקום להשוות כל מיקום ברצף עם כל מיקום אחר — שלב שהופך ליקר מאוד עבור מחרוזות ארוכות — הגישה ה‑Retentive מאפשרת למודל "לשמר" מידע חשוב ככל שהוא מתקדם לאורך הרצף, בעלות הגדלה בפרופורציה ישירה לאורך הרצף בלבד. המחברים מותחים רעיון זה לאנקודר שבוחן בשתי הכיוונים לאורך ה‑RNA, ויוצרים מודל קל משקל שלכ‑12 מיליון פרמטרים שמסוגל עדיין לעבד אלפי אותיות RNA בבת אחת על כרטיס GPU למחקר סטנדרטי.

לימוד ממיליוני רצפי RNA ללא תיוג
כדי ללמד את RNAret את "הדקדוק" של ה‑RNA, הצוות אימן אותו על כמעט 30 מיליון רצפי RNA לא‑מקודדים ממסד הנתונים RNAcentral, מבלי לספק תיוגים של סוג או תפקוד. הם השתמשו באסטרטגיה שאולה מתחום דגמי השפה: להסתיר קטעים קטנים מהרצף ולבקש מהמודל לנחש את החלקים הנעדרים. לאורך 600,000 צעדי אימון, RNAret למד בהדרגה לחזות את המקטעים המוסתרים, מה שמעיד שהוא קלט רגולריות בסידור הבסיסים. כאשר החוקרים בדקו מאוחר יותר את הייצוגים הפנימיים שנוצרו על ידי המודל, הם מצאו שרצפי RNA בעלי תפקידים ואורכים דומים התקבצו באופן טבעי במרחב ממדי נמוך, אף על פי שהמודל מעולם לא קיבל מידע לגבי שיוך הקטגוריות.
הפעלת המודל על שאלות ביולוגיות מעשיות
המחברים בחנו האם הדפוסים שנלמדו מסייעים לפתור בעיות מעשיות. ראשית, RNAret הותאם בעדינות (fine‑tuned) כדי לשפוט האם RNA רגולטורי קצר בשם microRNA יכול להיקשר לאזור מטרה על מולקולת RNA ארוכה יותר. בבנצ'מרק סטנדרטי של מעל 27,000 זוגות microRNA–mRNA, הגרסה של RNAret הקוראת מקטעים של חמישה תווים גרפה תוצאת עליונות על פני מספר מודלים גדולים יותר של שפת RNA וכלי למידה עמוקה ייעודי, והשיגה דיוק גבוה וציון F1 גבוה. כאשר החוקרים בחנו את "ציון השימור" הפנימי של המודל, נצפה שהוא ממקד באופן טבעי באזור ה‑"seed" של ה‑microRNA — מקטע המפתח הידוע מניסויים כגורם לקשירה — ואת המקטע המתאים על ה‑RNA המטרה, דבר המעיד שההחלטות של המודל מבוססות על ביולוגיה ממשית ולא על קיצורי דרך מקריים.

שחזור צורות ומיון סוגי RNA
בהמשך, הצוות אתגר את RNAret לחזות כיצד גדילים של RNA מתקפלים חזרה על עצמם למבנים שניוניים. באמצעות מערכי בנצ'מרק מטוהרים, הגרסה הפשוטה ביותר של RNAret (קוראת בסיס אחד בכל פעם) ייצרה מפות מגע של זוגות בסיס שברוב המקרים היו קרובות יותר למבנים הידועים מניסויים מאשר כלים פופולריים של למידה עמוקה וכלים תרמודינמיים, במיוחד עבור RNAs בעלי אורך בינוני. הפלטים של המודל, בשילוב שלב עיבוד לאחר מכן שמכפה חוקים פיזיים לגבי אילו בסיסים יכולים להתאים, הניבו תחזיות נקיות ופחות רועשות. במבחן שלישי, RNAret למד להבחין בין RNAs מקודדי חלבון לבין RNA לא‑מקודד ארוך בגנומים של אדם ועכבר. מאחר שהוא מסוגל לעבד טרנסקריפטים באורך מלא ללא פעולת חיתוך, הוא טיפל היטב ברצפים חלקיים וארוכים, ועבר את שיטות המסגרת הפתוחה הקלאסיות ורוב מודלי שפת ה‑RNA המתחרים, במיוחד על מערך הנתונים הגדול של האדם.
מהיר, יעיל ומוכן לצמוח
מעבר לדיוק, RNAret תוכנן להיות מהיר. בזכות הארכיטקטורה המבוססת שימור, המודל מעבד סדר גודל של מאה אלף יחידות RNA לשנייה במהלך האימון המוקדם על GPU יחיד מתקדם, והוא נשאר יעיל גם כאשר מותאם־בעדינות למשימות חיזוי מבנה או סיווג. אף על פי שהוא קטן בהרבה ממודלים ביולוגיים גדולים רבים שפורסמו לאחרונה, הוא משיג ביצועים ברמת החזית או קרובים לה במספר משימות מגוונות. המחברים רואים בכך הוכחת מושג כי רשתות Retentive יכולות לשמש כמנועים מעשיים ופרשניים לניתוח רצפים ביולוגיים. עם כוונון נוסף והרחבות ל‑DNA וחלבון, RNAret ודומיו עשויים להפוך לכלים יומיומיים להפיכת נתוני רצף גולמיים לתובנות על אודות האינטראקציות, הקיפולים וההוראות שמבצעים מולקולות החיים.
ציטוט: Shen, Y., Cao, G., Hu, Y. et al. Retentive Network promotes efficient RNA language modeling of long sequences. Commun Biol 9, 575 (2026). https://doi.org/10.1038/s42003-026-09757-x
מילות מפתח: מודל שפת RNA, רשת Retentive, חיזוי מבנה RNA, אינטראקציות microRNA, RNA לא מקודד ארוך