Clear Sky Science · ru
Прогнозирование субклеточной локализации circRNA путем объединения последовательности circRNA и сетевой информации
Почему важны крошечные РНК-петли и их «адреса»
Внутри каждой человеческой клетки множество молекул РНК активно взаимодействуют, помогая контролировать включение и выключение генов. Среди них — круговые РНК, или circRNA — необычные петлеобразные фрагменты РНК, обладающие высокой стабильностью и тесно связанные со многими заболеваниями, включая рак. Чтобы понять роль этих молекул, учёным нужно знать простой факт: где в клетке они локализуются. Традиционные лабораторные методы картирования «адресов» circRNA медленны, дороги и неполны. В этом исследовании представлен новый вычислительный метод под названием CircLoc, который предсказывает местоположение circRNA внутри клетки, объединяя данные о последовательностях и о сложных биологических сетях, в которых они участвуют.

Малые петли — большие биологические роли
Когда-то считавшиеся бессмысленным побочным продуктом обработки генов, circRNA теперь признаны участниками множества ключевых процессов — от дифференцировки клеток до регуляции генов. Их круговая структура делает их более устойчивыми по сравнению со многими другими РНК, что делает их перспективными биомаркерами для диагностики заболеваний. CircRNA могут связывать белки и «поглощать» микроРНК — крошечные регуляторы, которые обычно подавляют активность генов — тем самым изменяя поведение клетки. Поскольку многие молекулы действуют только в определённых участках клетки, таких как ядро, цитоплазма или мембраны, знание субклеточной локализации circRNA даёт важные подсказки об их функции и возможной роли в здоровье и болезни.
Преобразование разрозненных данных в обучающую базу
Авторы начали с аккуратно курируемой коллекции человеческих circRNA с известной локализацией из нескольких публичных баз данных. После исключения редких категорий и крайне несбалансированных групп они сосредоточились на семи основных клеточных областях, включая ядро, нуклеолус, нуклеоплазму, цитоплазму, цитозоль, хроматин и мембраны. В сумме было собрано 1486 circRNA с надёжной информацией о последовательности и хотя бы одной известной локализацией; многие элементы принадлежали сразу нескольким регионам, что превращало задачу в класс настоящей многометочной (multi-label) предсказательной проблемы. Дополнительные наборы данных из предыдущих релизов баз и крупной коллекции, связанной с раком, были отложены в качестве независимых тестов, что позволило авторам оценить, насколько хорошо их модель обобщается на недавно обнаруженные circRNA.
Слияние паттернов последовательности и карт клеточных взаимодействий
Ключевая идея CircLoc в том, что «адрес» circRNA определяется не только её собственной последовательностью, но и окружением. На стороне последовательности модель анализирует короткие фрагменты (k-меры и их обратные комплементарные) и более сложные представления, извлечённые большим языковым моделям, ориентированным на РНК, такой как RNAErnie, которая обучалась на массивных наборах данных РНК для улавливания тонких закономерностей. На стороне сетей авторы построили несколько карт, показывающих, как circRNA связаны друг с другом и с другими биологическими сущностями: перекрывающиеся последовательности, ассоциированные заболевания, ответы на лекарства, взаимодействующие микроРНК и связывающие белки. Инструмент встраивания сетей node2vec преобразует структуру каждой карты в числовые признаки, а автоэнкодер с графовым вниманием (GATE) затем уточняет их, выделяя связи между схожими circRNA, эффективно подавляя шум и обогащая сигналы, полученные из сетей.

Позволяя модели решать, что важнее
Все эти признаки на основе последовательности и сетей объединяются в единый профиль для каждого circRNA и пропускаются через слой самовнимания, механизм, позволяющий модели научиться, какие комбинации признаков должны оказывать наибольшее влияние на решения. Уточнённые профили затем поступают в глубокую полностью связную нейросеть, которая выдаёт вероятность для каждой из семи возможных локализаций. Авторы настраивали множество параметров модели с помощью десятикратной перекрёстной проверки — строгой процедуры, которая многократно разделяет данные на обучающую и тестовую части. CircLoc продемонстрировал средний показатель около 0,79 по стандартной метрике качества (AUC), существенно превосходя предыдущие подходы, созданные для микроРНК, и классические методы для задач с множественной меткой, обученные на тех же признаках. Эксперименты по удалению отдельных признаков или модулей показали, что информация из сетей и уточнение GATE особенно важны, тогда как признаки последовательности по-прежнему дают полезный, хотя и более скромный вклад.
Насколько хорошо модель справляется с новыми circRNA?
Чтобы проверить практическую полезность, команда обучила CircLoc на одной версии базы локализаций и протестировала на circRNA, появившихся только в более позднем релизе, а также на отдельном ресурсе, ориентированном на рак. Производительность упала по сравнению с исходным обучающим набором — что ожидаемо при работе с по-настоящему новыми данными из разных источников — но осталась приемлемой: средние показатели снизились умеренно, оставаясь информативными. Эти тесты вместе со сравнениями с другими методами указывают, что CircLoc может давать разумные первичные предположения о локализации недавно обнаруженных circRNA, даже когда некоторая сопутствующая информация — например, подробные связи с заболеваниями или лекарствами — отсутствует.
Что это означает для будущих исследований РНК
Работа показывает, что объединение прямой информации о последовательностях с богатой информацией о взаимодействиях помогает вычислительным моделям предсказывать, где внутри клетки вероятно находятся circRNA. Для экспериментальных биологов CircLoc предлагает способ приоритизировать, какие circRNA исследовать в каких клеточных компартментах, потенциально экономя время и ресурсы. Хотя метод пока не может полностью заменить лабораторные измерения, и авторы отмечают ограничения, такие как неполнота данных и скромная производительность на некоторых тестовых наборах, он представляет собой важный шаг к созданию масштабных in silico «адресных книг» для молекул РНК. По мере роста баз данных и улучшения методов моделирования такие инструменты могут стать обычным сопровождением экспериментов, направляя поиск circRNA, наиболее значимых для заболеваний и терапии.
Цитирование: Chen, L., Hu, J. & Zhou, B. Predicting circRNA subcellular localization by fusing circRNA sequence and network information. Sci Rep 16, 12775 (2026). https://doi.org/10.1038/s41598-026-43808-x
Ключевые слова: круговая РНК, субклеточная локализация, вычислительная биология, машинное обучение, сети РНК