Clear Sky Science · ru

DiNovo обеспечивает высокое покрытие и высокую достоверность de novo секвенирования пептидов с помощью зеркальных протеаз и глубокого обучения

· Назад к списку

Увидеть белки в новом подробном виде

Белки — это крошечные машины, поддерживающие жизнь клеток, но полностью прочитать их строительные блоки до сих пор оказывается удивительно сложно. В этой статье представлен DiNovo — новая программная система, которая помогает ученым «читать» фрагменты белков намного полнее и надежнее, чем раньше. Совмещая хитрый биохимический прием с современным искусственным интеллектом, она обещает обнаруживать скрытые белки, молекулярные маркеры заболеваний и даже иммунные мишени, которые традиционные методы часто пропускают.

Figure 1
Figure 1.

Почему читать фрагменты белков так трудно

Большая часть анализа белков сегодня опирается на их расщепление на менее крупные фрагменты — пептиды — и последующее взвешивание этих фрагментов в масс-спектрометре. По этим массам компьютеры пытаются восстановить исходную последовательность пептида, как разгадывая кроссворд по отрывочным подсказкам. Существующие методы обычно предполагают, что пептиды получены из известных баз белков, что хорошо работает для привычных белков, но испытывает трудности с новыми или неожиданными белками. Так называемое de novo секвенирование избегает этого ограничения, пытаясь читать пептиды напрямую из данных, но часто падает по качеству из-за пропусков фрагментов и того, что некоторые пептиды не разрезаются чисто.

Использование зеркальных ферментов для заполнения пробелов

Ключевая идея DiNovo — использовать пары «зеркальных протеаз» — пар ферментов, расщепляющих белки по противоположным сторонам одного и того же типа аминокислоты. Например, один фермент разрезает непосредственно перед лизином, а его партнер — сразу после лизина. Это дает две связанные последовательности пептидов, которые имеют одинаковый внутренний сегмент, но разные концы. При анализе такие «зеркальные» пептиды дают массы спектров с дополняющимися фрагментными шаблонами: то, чего не хватает в одном спектре, часто присутствует в другом. Авторы показывают, что комбинирование таких зеркальных пар может довести покрытие фрагментов почти до полного — примерно 98% возможных разрезов подтверждаются реальными экспериментальными сигналами, что значительно выше, чем при использовании одного только фермента.

Умный программный конвейер, созданный для зеркальных данных

Чтобы воспользоваться этим биохимическим приемом, команда создала DiNovo как сквозной программный рабочий процесс. Сначала белки от бактерий и дрожжей переваривают двумя зеркальными парами ферментов, а полученные пептиды анализируют на высокоразрешающем масс-спектрометре. Затем DiNovo использует модуль MirrorFinder для автоматического распознавания пар спектров, принадлежащих зеркальным пептидам, делая это напрямую по шаблонам сигналов, а не по предварительным догадкам о последовательностях. Далее основной движок de novo, MirrorNovo, применяет глубокое обучение для интерпретации этих пар спектров, а резервный графовый движок pNovoM2 обеспечивает более быстрый вариант, работающий на CPU. Вместе эти инструменты переводят пики в аминокислотные последовательности и также анализируют отдельные спектры, не образовавшие очевидных пар, извлекая максимальное количество информации.

Figure 2
Figure 2.

Оценка доверия без опоры на старые базы данных

Одна из крупнейших проблем de novo секвенирования — насколько можно доверять результатам. Большинство существующих бенчмарков перерабатывают ответы из поиска по базам, что размывает границу между двумя подходами и может скрывать ошибки. DiNovo вводит иной метод проверки качества, называемый отображением «таргет–декой». Здесь вновь прочитанные пептиды сопоставляют с объединенной коллекцией реальных (таргетных) и искусственных, переставленных (декой) белковых последовательностей. Сравнивая, как часто пептиды попадают в реальный набор по сравнению с переставленным, программа может оценить уровень ошибок, или уровень ложных находок, не опираясь на предыдущие идентификации. Это позволяет напрямую сравнивать DiNovo со стандартными программами поиска по базам при одинаковых контролях ошибок.

Что DiNovo дает на практике

В тестах на бактериальных, дрожжевых и антительных (антигенных) образцах DiNovo последовательно прочитывал намного больше пептидов и аминокислот, чем известные инструменты de novo, использующие только один фермент. Применяя две зеркальные пары, система выдавала в 2–3 раза больше аминокислот с высокой уверенностью, чем классическая схема с только трипсином, и выявляла больше белков при сопоставимых уровнях ошибок. При прямом сравнении с тремя ведущими движками поиска по базам DiNovo нашел сопоставимое число аминокислот и белков, и большинство его последовательностей совпадали с последовательностями, найденными этими движками по тем же спектрам. Авторы утверждают, что такой уровень покрытия и согласованности означает: de novo секвенирование, долгое время считавшееся вспомогательным методом, теперь может стоять рядом с поиском по базам как серьезная, а в некоторых случаях превосходящая, альтернатива.

Широкая перспектива: к полному, непредвзятому чтению белков

Для неспециалиста главный вывод в том, что DiNovo значительно упрощает точное чтение фрагментов белков без привязки к тому, что уже есть в справочных базах. Удваивая или утраивая объем хорошо подтвержденной информацией о последовательностях и предоставляя встроенные проверки ошибок, этот подход открывает дорогу к обнаружению незнакомых белков, отслеживанию тонких вариаций и изучению сложных смесей, где многие компоненты еще неизвестны. Коротко говоря, сочетая зеркальные ферменты с глубоким обучением и тщательной статистикой, DiNovo помогает превратить шумные спектральные следы в более ясную и надежную картину белков, лежащих в основе здоровья и болезней.

Цитирование: Cao, Z., Peng, X., Zhang, D. et al. DiNovo enables high-coverage and high-confidence de novo peptide sequencing via mirror proteases and deep learning. Nat Commun 17, 2203 (2026). https://doi.org/10.1038/s41467-026-70224-6

Ключевые слова: протеомика, de novo секвенирование пептидов, масс-спектрометрия, глубокое обучение, зеркальные протеазы