Clear Sky Science · ru
Выявление разнообразия PAM для Cas9 с помощью метагеномной разведки и машинного обучения
Почему это важно для будущего редактирования генов
CRISPR стал символом современного редактирования генов, но одно негласное правило по‑прежнему ограничивает его возможности: каждый разрез в ДНК должен находиться рядом с короткой «разрешительной» последовательностью. Эти короткие мотивы, называемые PAM, определяют, где популярная нуклеаза Cas9 может работать, а где — нет. В исследовании показано, как перебор огромных объёмов микробной ДНК в сочетании с продвинутым машинным обучением может раскрыть поразительно большое и ранее скрытое разнообразие таких «разрешительных» последовательностей. Эта новая карта может открыть множество дополнительных участков в человеческом геноме для точных и более безопасных терапий.
Скрытые правила, которыми руководствуется CRISPR
Cas9 и родственныe ему ферменты — часть природной иммунной системы бактерий и архей. Чтобы не разрезать собственную ДНК, эти микроорганизмы направляют белки Cas на поиск PAM — очень короткого участка нуклеотидов — рядом с целевым сайтом. Только при наличии подходящего PAM Cas9 раскручивает ДНК и даёт направляющей РНК проверить совпадение; если всё сходится, следует разрез. Проблема для медицины в том, что обычные лабораторные инструменты, например стандартный Cas9 из Streptococcus pyogenes, распознают лишь узкие PAM‑мотивы. Если вызывающая болезнь мутация не имеет подходящей соседней последовательности, современные инструменты просто не могут добраться до неё без потери точности.

Сканирование микробного мира в поисках новых вариантов
Авторы поставили задачу систематически картировать, как разные белки Cas9 распознают разные PAM в природе. Они проанализировали более 3,8 миллиона бактериальных и архейных геномов и свыше 7,4 миллиона вирусных и плазмидных последовательностей, которые инфицируют или переносятся между микроорганизмами. Выявляя CRISPR‑массивы, связывая их с рядом расположенными генами Cas9 и сопоставляя «памятные» спейсер‑последовательности с нападающими вирусами и плазмидами, исследователи могли увидеть, какие короткие участки ДНК обычно окружают реальные мишени. На этой основе они создали CRISPR‑PAMdb — публичный каталог, содержащий 8003 группы Cas9, каждая из которых сопряжена с консенсусным профилем PAM, и организовали их на эволюционном дереве, показывающем, что близкородственные Cas9 склонны иметь схожие предпочтения PAM, хотя в целом наблюдается поразительное разнообразие.
Когда данных не хватает — пусть учится модель
Даже при таком масштабном обзоре у большинства найденных Cas9 не было достаточного числа совпадающих вирусных целей, чтобы напрямую определить PAM. Чтобы заполнить пробелы, команда создала модель машинного обучения CICERO. CICERO использует мощную белковую «языковую» модель, которая усвоила общие закономерности аминокислотных последовательностей, и адаптирует её для предсказания, для любого данного белка Cas9, какова вероятность появления каждой нуклеотидной буквы в каждой из десяти позиций PAM. Модель обучали на профилях PAM из CRISPR‑PAMdb, а затем тестировали как с помощью кросс‑валидации, так и на 79 Cas9‑ферментах, у которых PAM были измерены экспериментально, добившись хорошего согласия между предсказанием и реальностью.

Как оценивать уверенность предсказаний
Ключевая особенность CICERO в том, что модель не просто угадывает PAM — она также оценивает надёжность каждого предсказания. После обучения предсказывать PAM исследователи обучили вторую, лёгкую нейросеть, которая по той же последовательности Cas9 прогнозирует, насколько точным будет предсказание PAM. Более высокие значения доверия сильно коррелировали с большей реальной точностью. С помощью этого фильтра уверенности команда распространила аннотации PAM на более чем 50 000 дополнительных белков Cas9, при этом свыше 17 000 предсказаний были классифицированы как высоконадежные. Это значительно расширяет набор вариантов Cas9 с достаточно хорошо понятыми правилами наведения.
Что это значит для лечения генетических заболеваний
Чтобы показать практическую пользу новых ресурсов, авторы проанализировали десятки тысяч однонуклеотидных мутаций, связанных с болезнями, из базы ClinVar, которые теоретически можно исправить с помощью редакторов оснований — инструментов, меняющих одну букву ДНК без разреза обеих цепей. Они обнаружили, что стандартный Cas9 может добраться лишь примерно до половины таких сайтов из‑за своих строгих требований к PAM. Если же использовать родственников Cas9 из CRISPR‑PAMdb и высоконадежные предсказания CICERO, которые распознают более широкий, но все ещё специфичный набор соседних последовательностей, почти все эти мутации становятся теоретически достижимыми без ослабления точности наведения.
Более обширный набор инструментов для точной «ДНК‑хирургии»
Проще говоря, эта работа создаёт две вещи: огромную публичную карту, связывающую тысячи природных белков Cas9 с короткими ДНК‑мотивами, которые они предпочитают, и ИИ‑помощника, способного предсказывать эти предпочтения для многих других ферментов просто по их последовательностям. Вместе они превращают микробный мир в богатую библиотеку деталей для будущих редакторов генома. По мере того как исследователи будут уточнять и проверять эти варианты Cas9 в лаборатории, клиницисты получат более безопасные и универсальные инструменты, способные достигать вызывающих болезни мутаций, ранее находившихся вне досягаемости, что приблизит действительно точную геномную хирургию к клинической реальности.
Цитирование: Fang, T., Bogensperger, L., Feer, L. et al. Uncovering Cas9 PAM diversity through metagenomic mining and machine learning. Nat Commun 17, 2510 (2026). https://doi.org/10.1038/s41467-026-69098-5
Ключевые слова: CRISPR-Cas9, разнообразие PAM, метагеномика, машинное обучение, редактирование генома