Clear Sky Science · ru
Z-Calling: инструмент для определения оснований A/Z (2,6-диаминопураин) и обнаружения dZ-ДНК с использованием PacBio HiFi-ридов
Почему важна другая разновидность ДНК
ДНК обычно описывают как универсальный чертеж жизни, построенный из четырёх знакомых букв: A, T, C и G. Но некоторые вирусы нарушают это правило, заменяя букву A на химический аналог под названием Z, что делает их ДНК прочнее и менее уязвимой. Это открытие указывает на скрытый уровень генетического разнообразия, имеющий широкие последствия для биотехнологий, медицины и даже хранения данных. Задача была проста по формулировке, но трудна по исполнению: как учёным надёжно обнаруживать и картировать эту необычную Z‑ДНК, особенно когда она смешана с обычной ДНК? В этом исследовании представлен Z-Calling — вычислительный инструмент, который делает это возможным с помощью существующей технологии длинного чтения.

Странная буква в генетическом алфавите
В большинстве организмов основание аденин (A) спаривается с тимином (T) через два водородных связа, что стабилизирует классическую двойную спираль ДНК. Некоторые бактериофаги — вирусы, инфицирующие бактерии — эволюционно заменили A на 2,6-диаминопураин, получивший прозвище Z. Z образует три водородные связи с T, что делает спираль ДНК более стабильной и меняет её физическое поведение. Эта необычная химия может давать Z‑содержащим вирусам преимущество против защит хозяина и открывает возможности для инженерных молекул с улучшенными свойствами. Исследователи уже показали, что Z может улучшать генетические тесты, настраивать реакции CRISPR и снижать иммунные ответы на экспериментальные РНК‑лекарства. Тем не менее, без метода точного определения местоположения Z в цепи ДНК было трудно полностью понять и использовать эти преимущества.
Существующие инструменты недостаточны
Стандартные технологии секвенирования ДНК предполагают, что все сигналы, похожие на A, действительно соответствуют аденину, поэтому они часто ошибочно читают Z как обычный A. Химические методы, такие как ВЭЖХ, могут определить общее количество Z в образце, но не позволяют сказать, где именно находится каждое Z вдоль генома, особенно в сложных экологических пробах, содержащих много видов. Некоторые платформы третьего поколения, например нанопоры, теоретически достаточно чувствительны, чтобы различать основания, но на практике их сигналы могут быть шумными и трудноинтерпретируемыми при наличии незнакомой химии. До сих пор не было удобного и надёжного способа просканировать сложные смеси ДНК и чётко отделить нормальную ДНК от Z‑содержащей или отличить A от Z по буквам.
Слушая ритм синтеза ДНК
Авторы сосредоточились на технологии PacBio Circular Consensus Sequencing, которая многократно копирует одну и ту же молекулу ДНК и фиксирует не только то, какое основание добавляется, но и с какой скоростью происходит добавление. Две временные метрики — длина импульса (pulse width, сколько времени полимераза тратит на добавление основания) и интеримпульсная длительность (inter-pulse duration, пауза между добавлениями) — формируют своего рода ритмическую дорожку синтеза ДНК. Сравнивая множество специально сконструированных образцов, включая обычную ДНК, полностью Z‑замещённую ДНК и гибридные молекулы, где A и Z сосуществуют, команда показала, что замена A на Z создаёт тонкие, но стабильные изменения во временных параметрах. Эти изменения зависят от окружающей последовательности и в основном затрагивают длину импульса в узком окне вокруг позиции Z, при этом общая точность секвенирования остаётся почти такой же высокой, как для немодифицированной ДНК.
Как Z-Calling находит скрытые Z‑основания
Опираясь на эти временные шаблоны, исследователи обучили модели машинного обучения распознавать кинетическую «интонацию» Z. Их инструмент Z-Calling выполняет две основные задачи. Во‑первых, он классифицирует целые риды секвенирования как обычную ДНК или Z‑содержащую ДНК, даже в искусственных метагеномах, смешивающих многие виды и химии. Для этого нейронная сеть оценивает, насколько вероятно, что каждая A‑подобная позиция является Z, а распределение этих оценок подаётся в метод опорных векторов, который решает, принадлежит ли весь рид Z‑ДНК. Во‑вторых, инструмент выполняет дискриминацию по одному основанию, присваивая каждой позиции A или Z на основе локального контекста последовательности и кинетических сигналов. По наборам данных от бактерий, дрожжей, растений, животных и естественно Z‑содержащего фага эти модели достигли высокой точности (значения площади под ROC около 0,94–0,98), сопоставимой с ведущими инструментами для обнаружения распространённых меток метилирования ДНК.

Проверка инструмента в реальных условиях
Чтобы показать, что Z-Calling работает не только на чистых лабораторных конструктах, авторы применили его к инженерной штамму дрожжей, в котором аденин частично заменён на Z по всему геному. Химический анализ указал, что примерно четверть всех A‑подобных позиций превратилась в Z. Z-Calling независимо оценил схожую долю и отобразил распределение Z по хромосомам и плазидам дрожжей, обнаружив в целом случайное распределение. Инструмент также просканировал смешанные наборы данных, в которых лишь крошечная доля ридов принадлежала Z‑ДНК вирусов или гибридных геномов. Даже когда Z‑содержащие риды составляли примерно один процент от общего числа, Z-Calling всё ещё мог с высокой уверенностью фиксировать их присутствие, одновременно сохраняя крайне низкий уровень ложных срабатываний при проверке на множестве контрольных геномов, богатых естественными эпигенетическими метками.
Что это означает для будущего
Преобразуя тонкие кинетические особенности секвенирования в чёткие сигналы, Z-Calling предоставляет первый практический способ систематически картировать появление оснований Z, по одному основанию и по каждому геному. Для широкого читателя ключевая мысль такова: наш генетический алфавит более гибок, чем считалось раньше, и теперь у нас есть метод читать одну из его наиболее интригующих альтернативных «букв» с высоким разрешением. Эта возможность поможет учёным искать больше Z‑основанных вирусов в природе, верифицировать инженерные организмы, использующие Z для повышения стабильности или новых функций, и исследовать экзотические полимеры, похожие на ДНК, для защищённого хранения информации и продвинутых терапий. Короче говоря, Z-Calling превращает малоизвестное химическое курьёз в отслеживаемую особенность реальных геномов.
Цитирование: Wu, B., Chen, Y., Zhou, Y. et al. Z-Calling: a tool for A/Z (2,6-diaminopurine) base calling and dZ-DNA detection using PacBio HiFi reads. Commun Biol 9, 594 (2026). https://doi.org/10.1038/s42003-026-09849-8
Ключевые слова: Z-ДНК, неканонические основания, секвенирование PacBio, машинное обучение в геномике, геномика фагов