Clear Sky Science · ru

SamplingDesign: дизайн РНК через непрерывную оптимизацию с сопряжёнными переменными и Монте-Карло выборкой

· Назад к списку

Проектирование РНК как новый инструмент медицины

РНК — это не просто пассивный носитель генетической информации; она может сворачиваться в сложные формы, которые регулируют гены, катализируют реакции и даже служат основой вакцин. Если бы учёные могли надёжно проектировать последовательности РНК, складывающиеся в заданные структуры, они могли бы создавать индивидуальные молекулярные инструменты для медицины — от усовершенствованных вакцин до программируемых генетических переключателей. В этой работе представлен SamplingDesign, новый вычислительный метод, который решает трудную задачу дизайна РНК, сочетая идеи из физики, статистики и современных методов машинного обучения.

Figure 1
Figure 1.

Почему трудно проектировать формы РНК

Проектирование РНК похоже на попытку подобрать строку букв так, чтобы, скомкав её, она формировала именно нужную фигуру оригами — и почти ничего другого. Для цепочки длины n существует 4n возможных последовательностей, поэтому даже для умеренных длин число вариантов растёт до астрономических значений. К тому же каждая последовательность может сворачиваться во множество альтернативных структур, конкурирующих с желаемой. Полезный дизайн должен не только сделать целевую форму энергетически наиболее выгодной, но и существенно понизить вероятность конкурирующих конформаций, чтобы среди множества возможностей нужная структура доминировала. Традиционные методы поиска изменяют одну или несколько позиций за раз и быстро теряются в этом лабиринте вариантов, особенно для длинных и сложных РНК.

Новый способ одновременно исследовать множество вариантов

Вместо того чтобы переходить от одной кандидатной последовательности к другой, SamplingDesign действует на уровне целого облака возможностей. Метод начинает с распределения вероятностей по всем последовательностям, совместимым с целевой структурой — то есть таких, у которых парные позиции могут образовывать реальные химические основания. Затем метод использует градиентную оптимизацию, основной инструмент машинного обучения, чтобы постепенно перестраивать это распределение: последовательности, которые с высокой вероятностью сворачиваются в целевую структуру, получают большую вероятность, а плохие кандидаты — меньшую. Важный момент: авторы не оптимизируют единую оценку для одной последовательности; они оптимизируют среднюю эффективность всех последовательностей относительно текущего распределения, что поощряет широкое исследование на ранних этапах и тонкую донастройку позже.

Учет совместной работы оснований

Ключевой элемент подхода — более реалистичное представление взаимозависимостей позиций в РНК. Вместо того чтобы рассматривать каждую нуклеотидную позицию как независимый выбор, SamplingDesign объединяет некоторые позиции в «сопряжённые переменные». Для каждой парной позиции оба партнёра имеют небольшую совместную таблицу вероятностей по шести химически допустимым типам пар, автоматически исключая недопустимые комбинации. Аналогичное сопряжение применяется к соседним позициям, которые взаимно влияют на энергию, например к областям с мисматчами и тримисматчами вокруг петель. Это сужает пространство дизайна до только валидных последовательностей и делает оптимизацию более гладкой, поскольку обновления действуют непосредственно на осмысленные выборы пар оснований и несовпадений, а не на отдельные буквы.

Figure 2
Figure 2.

Использование случайности для более умных решений

Поскольку невозможно точно вычислить средние значения по огромному пространству последовательностей и свёрток, SamplingDesign опирается на выборку Монте‑Карло. На каждом шаге метод генерирует управляемое количество последовательностей из текущего распределения, оценивает, насколько хорошо каждая из них сворачивается согласно термодинамическим моделям, и использует эти образцы для оценки как среднего целевого показателя (например, вероятности целевой структуры), так и направления изменения распределения. За множество итераций масса вероятности смещается в сторону лучших последовательностей, и распределение становится острее. Вместо того чтобы в конце выбрать единственную наиболее вероятную последовательность, метод сохраняет все полученные образцы и выбирает ту, которая действительно показала наилучший результат по выбранной метрике, получая преимущества широкого исследования без потери фокусировки.

Превосходство над существующими инструментами в сложных задачах

Авторы протестировали SamplingDesign на нескольких стандартных наборах задач по проектированию РНК, включая широко используемый бенчмарк Eterna100, который варьируется от простых шпилек до длинных сложных форм длиной до 400 нуклеотидов. По почти всем метрикам, учитывающим ансамбли структур — особенно по вероятности Богмольтцова распределения целевой формы и «ensemble defect», характеризующему долю неправильно свернувшихся нуклеотидов — SamplingDesign превзошёл современные инструменты дизайна, опирающиеся на локальный поиск или более простые непрерывные методы. Преимущество было особенно заметно для самых длинных и сложных задач, где традиционные алгоритмы часто застревают в плохих решениях, в то время как SamplingDesign продолжает находить последовательности, у которых целевые структуры явно выигрывают у конкурентов.

Что это означает для будущих РНК‑технологий

Проще говоря, эта работа демонстрирует: подход к дизайну РНК как к управляемому исследованию множества последовательностей одновременно, а не как к пошаговому редактированию, может давать более чистые и более надёжные свёртки — особенно для больших и трудных целей. За счёт моделирования взаимодействий оснований попарно и группами и применения выборки для навигации по иначе неразрешимому ландшафту, SamplingDesign предоставляет гибкую платформу, которая может оптимизировать разные целевые критерии. Авторы предполагают, что метод можно расширить для настройки матричных РНК для вакцин или терапий и для включения экспериментальных ограничений. По мере того как улучшенный вычислительный дизайн встречается с лабораторной проверкой, такие методы могут помочь превратить абстрактные РНК‑проекты в практичные молекулярные инструменты для медицины.

Цитирование: Tang, W.Y., Dai, N., Zhou, T. et al. SamplingDesign: RNA design via continuous optimization with coupled variables and Monte-Carlo sampling. Nat Commun 17, 2950 (2026). https://doi.org/10.1038/s41467-025-67901-3

Ключевые слова: дизайн РНК, обратное сворачивание, выборка Монте-Карло, непрерывная оптимизация, мРНК‑терапии