Clear Sky Science · ru

EPInformer: масштабируемое и интегративное предсказание экспрессии генов по последовательностям промотеров и энхансеров с мультимодальными эпигеномными профилями

2026-03-14 · Назад к списку

Почему важно предсказывать активность генов

Каждая клетка вашего организма по сути содержит одну и ту же ДНК, но клетки мозга, крови и печени функционируют совершенно по-разному. Различия определяются тем, какие гены включены, а какие выключены. Возможность предсказывать эту генную активность напрямую по ДНК и связанным с ней сигналам помогает учёным понять, как клетки развиваются, реагируют на окружение и в каких случаях процесс идёт неправильно при заболеваниях. В этой статье представлен EPInformer — новый вычислительный инструмент, который использует последние достижения в искусственном интеллекте для более точного и эффективного прогнозирования активности генов по сравнению с предыдущими методами.

Как удалённые ДНК‑переключатели контролируют гены

Гены контролируются не только коротким фрагментом ДНК у начала считывания (промотером). На них также влияют отдалённые участки ДНК, называемые энхансерами, которые действуют как дистанционные переключатели. Эти переключатели могут находиться на расстоянии десятков или даже сотен тысяч букв ДНК от гена, при этом в трёхмерном пространстве они замыкаются и контактируют с промотером. Помимо самой последовательности ДНК, химические метки и белковые маркёры вдоль молекулы — в совокупности эпигеномные сигналы — указывают, какие переключатели активны в конкретном типе клеток. Традиционные компьютерные модели испытывали трудности при объединении всей этой информации, особенно влияния очень удалённых переключателей, для прогнозирования уровня экспрессии гена.

Компактная модель ИИ, читающая множество сигналов одновременно

EPInformer построен на современной архитектуре ИИ, известной как трансформер, адаптированной из языковых моделей. Вместо предложений он «читает» фрагменты ДНК вокруг гена и его кандидатных переключателей. Модель сначала переводит каждую последовательность промотера и соседнего энхансера в числовое «встраивание» (embedding), которое захватывает важные закономерности. Она также может добавлять дополнительные каналы, представляющие локальные химические метки на ДНК, открытость хроматина и измерения частоты 3D‑контактов между регионами ДНК. Специальный механизм внимания затем фокусируется на том, как каждый потенциальный переключатель взаимодействует с промотером, целенаправленно игнорируя взаимодействия между самими переключателями. Финальный шаг предсказания объединяет это выученное представление с базовыми свойствами РНК гена, чтобы выдать ожидаемый уровень активности.

Лучшие прогнозы при меньших вычислительных затратах

Для проверки EPInformer авторы обучали и оценивали модель на крупных публичных наборах данных, содержащих профили доступности ДНК, химических меток, 3D‑контактов и активности генов в нескольких линиях человеческих клеток. Они сравнивали различные версии модели: использующие только последовательность и расстояние, добавляющие эпигеномные сигналы или дополнительно включающие 3D‑карты контактов. Как по стандартному секвенированию РНК, так и по промотер-ориентированному методу CAGE, EPInformer последовательно превосходил ведущие подходы, включая крупные модели, работающие только с последовательностью и анализирующие очень длинные участки ДНК. Примечательно, что он делал это с долей параметров — около 0,4 миллиона против сотен миллионов — что позволяло обучать модель на одном графическом процессоре примерно за час. Это делает точное моделирование активности генов доступным для многих лабораторий без массивных вычислительных ресурсов.

Поиск ключевых переключателей и их управляющих слов

Поскольку механизм внимания EPInformer оценивает, насколько сильно каждый кандидат‑энхансер влияет на ген, модель также помогает выделить наиболее важные переключатели в данном типе клеток. Авторы показали, что эти оценки внимания точнее восстанавливали экспериментально подтверждённые пары энхансер–ген, чем широко используемый метод, основанный только на активности и контактах, особенно для удалённых переключателей. Они также использовали инструменты интерпретации, чтобы детально просмотреть последовательности ДНК энхансеров с наивысшими оценками и выявить короткие повторяющиеся мотивы, соответствующие известным сайтам связывания транскрипционных факторов — белков, действующих как управляющие слова в геноме. В клетках, связанных с кроветворением, например, EPInformer заново обнаружил мотивы для ключевых регуляторов развития эритроцитов, что говорит о том, что модель выучила биологически значимые правила, а не просто запомнила данные.

Что это значит для будущей биологии и медицины

Проще говоря, EPInformer даёт исследователям более острое и доступное средство для понимания того, как гены включаются и выключаются в разных типах клеток, объединяя последовательность ДНК, химические метки и трёхмерную свёртку генома. Его способность выделять удалённые переключатели, значимые для конкретного гена, и определять управляющие слова, которые они содержат, может направлять эксперименты, проверяющие, как мутации или целевые правки влияют на активность генов. По мере расширения подхода на большее число типов клеток и различных вариантов генов он может помочь объяснить, как некодирующие изменения в геноме вносят вклад в сложные признаки и заболевания, а также информировать разработку более точных генетических терапий.

Цитирование: Lin, J., Li, Z., Zhao, Y. et al. EPInformer: scalable and integrative prediction of gene expression from promoter-enhancer sequences with multimodal epigenomic profiles. Nat Commun 17, 3975 (2026). https://doi.org/10.1038/s41467-026-70535-8

Ключевые слова: предсказание экспрессии генов, взаимодействия энхансеров и промотеров, эпигеномика, глубокое обучение в геномике, архитектура хроматина