Clear Sky Science · ru

Retentive Network способствует эффективному языковому моделированию длинных РНК-последовательностей

2026-03-11 · Назад к списку

Обучая компьютеры «читать» молекулярные послания РНК

Каждая клетка вашего тела наполнена РНК — молекулой, которая помогает превращать генетические инструкции в живую материю. Но современные биологи сталкиваются с потоком данных о РНК, который уже невозможно просматривать вручную строка за строкой. В этой работе представлен RNAret, компактная модель искусственного интеллекта, которая «читает» РНК-последовательности подобно языку и способна обрабатывать чрезвычайно длинные фрагменты генетического текста. Ее цель — выявлять скрытые закономерности, объясняющие, как РНК сворачиваются, взаимодействуют и отличают функциональные чертежи от фонового шума — при этом требуя значительно меньше вычислительных ресурсов, чем современные инструменты.

Новый способ обнаружения паттернов в РНК

RNAret построен на основе новой архитектуры ИИ под названием Retentive Network, предложенной как преемник трансформеров — движков больших языковых моделей для человеческого текста. Вместо того чтобы сравнивать каждую позицию последовательности со всеми остальными — шага, который становится чрезвычайно затратным для длинных строк — подход с «удержанием» (retention) позволяет модели «сохранять» важную информацию по ходу обработки, с затратами, растущими пропорционально длине последовательности. Авторы адаптировали эту идею в энкодер, который смотрит в обоих направлениях вдоль РНК, создав легковесную модель примерно с 12 миллионами параметров, способную обрабатывать тысячи нуклеотидов одновременно на стандартной исследовательской GPU.

Обучение на миллионах немаркированных РНК-последовательностей

Чтобы научить RNAret «грамматике» РНК, команда обучала его на почти 30 миллионах некодирующих РНК из базы RNAcentral, не предоставляя меток по типу или функции РНК. Они использовали стратегию, заимствованную из языкового моделирования: скрывать небольшие фрагменты последовательности и просить модель угадать пропущенные части. За 600 000 шагов обучения RNAret постепенно научился предсказывать эти маскированные сегменты, что указывает на захват регулярностей в расположении оснований. Когда исследователи позже проанализировали внутренние представления, которые выдавала модель, они обнаружили, что РНК с похожими ролями и длинами естественно группируются в низкоразмерном пространстве, хотя модель никогда не получала указаний, какие последовательности к каким категориям принадлежат.

Применение модели к реальным биологическим задачам

Авторы затем проверили, помогают ли изученные паттерны решать практические задачи. Сначала RNAret дообучили на задаче оценки, может ли короткая регуляторная РНК, называемая microRNA, связаться с целевым участком на более длинной молекуле РНК. На стандартном бенчмарке более чем 27 000 пар microRNA–mRNA версия RNAret, читающая пятого-нуклеотидные фрагменты, превзошла несколько более крупных языковых моделей для РНК и специализированный инструмент глубокого обучения, достигнув высоких значений точности и F1. При анализе внутренних «оценок удержания» (retention scores) исследователи увидели, что модель естественно фокусируется на «семенной» (seed) области microRNA — ключевом участке, известном по экспериментам как драйвер связывания — и на соответствующей части целевой РНК, что указывает на биологическую обоснованность решений модели, а не на случайные уловки.

Восстановление форм и сортировка типов РНК

Далее команда проверила RNAret на задаче предсказания, как одиночные РНК-цепи сворачиваются в вторичную структуру. Используя очищенные бенчмарки, самая простая версия RNAret (читающая по одному основанию за шаг) генерировала карты контактов пар оснований, часто ближе соответствующие экспериментально известным структурам, чем популярные методы глубокого обучения и термодинамические инструменты, особенно для РНК средних длин. Выходы модели в сочетании с постобработкой, которая накладывает физические правила о том, какие основания могут спариваться, давали чище и менее зашумленные предсказания. В третьем тесте RNAret научился отличать белок-кодирующие РНК от длинных некодирующих РНК в геномах человека и мыши. Поскольку модель может обрабатывать полные транскрипты без их разрезания, она хорошо справлялась с частичными и длинными последовательностями, превосходя классические методы на основе открытых рамок считывания и большинство конкурирующих языковых моделей для РНК, особенно на крупном наборе данных человека.

Быстро, эффективно и готово к масштабированию

Помимо точности, RNAret разработан для скорости. Благодаря архитектуре на основе удержания модель обрабатывает порядка сотен тысяч нуклеотидных единиц в секунду во время предобучения на одной современной GPU и остается эффективной даже при дообучении для предсказания структуры или классификации. Несмотря на то что она значительно меньше многих недавних биологических языковых моделей, RNAret достигает передовых или близких к передовым результатов на разнообразных задачах. Авторы рассматривают это как доказательство концепции того, что Retentive Networks могут служить практичными и интерпретируемыми движками для анализа биологических последовательностей. При дальнейшем тюнинге и расширениях на ДНК и белки RNAret и родственные модели могут стать повседневными инструментами для превращения необработанных последовательностей в понимание того, как молекулы взаимодействуют, сворачиваются и выполняют инструкции жизни.

Цитирование: Shen, Y., Cao, G., Hu, Y. et al. Retentive Network promotes efficient RNA language modeling of long sequences. Commun Biol 9, 575 (2026). https://doi.org/10.1038/s42003-026-09757-x

Ключевые слова: Языковая модель РНК, Retentive Network, Предсказание структуры РНК, взаимодействия microRNA, длинные некодирующие РНК