Clear Sky Science · ru

DupyliCate: выявление, классификация и характеристика дупликаций генов

· Назад к списку

Почему дополнительные копии генов важны

В каждом живом организме тысячe генов, но многие из них не являются уникальными. Со временем участки ДНК могут копироваться, оставляя у организмов запасные версии, с которыми эволюция может экспериментировать. Эти дополнительные копии генов помогают растениям адаптироваться к стрессам, формировать новые признаки — например, цвет цветка или вкус — и даже влиять на то, как микроорганизмы реагируют на окружающую среду. В этом исследовании представлен DupyliCate, программный инструмент, предназначенный для поиска и сортировки таких копий генов в разных видах, что помогает исследователям выяснять, как меняются геномы и как возникают новые биологические черты.

Поиск копий генов в море ДНК

Современные геномы огромны и сложны. Дополнительные копии генов могут находиться рядом друг с другом, быть разбросаны по хромосомам или являться остатком древних удвоений целых геномов. Старые инструменты часто фокусировались на парах родственных генов или были настроены под очень специфические форматы данных, что ограничивало выводы учёных. DupyliCate решает эти проблемы, сканируя целые геномы и группируя родственные гены в массивы, а не только в пары. Он разработан для работы с множеством вариантов файлов аннотаций геномов и может применяться к растениям, микроорганизмам и животным. Группируя гены как тандемные, близко расположенные и рассеянные дупликаты, инструмент даёт более ясную картину того, как копирование повлияло на каждый геном.

Figure 1. Как компьютерный инструмент просматривает множество геномов, чтобы упорядочить дополнительные копии генов по шаблонам дупликации.
Figure 1. Как компьютерный инструмент просматривает множество геномов, чтобы упорядочить дополнительные копии генов по шаблонам дупликации.

Позволяя каждому виду задавать собственные правила

Одна из задач при поиске истинных копий генов — решить, где провести грань между одиночным геном и дупликатом. DupyliCate использует шаг контроля качества на основе консервативных «ядровых» генов, известных как BUSCO-гены, чтобы установить пороги, специфичные для каждого вида. Он оценивает, насколько сильно каждый ген соответствует своим ближайшим партнёрам, и использует эти значения, чтобы разделить гены на «синглтоны» и дупликаты таким образом, чтобы это отражало историю дупликаций данного вида. Инструмент также создаёт «ландшафт дупликаций» — график, показывающий распространённость копий генов по геному и выявляющий такие паттерны, как бактерии с малым числом дупликаций, умеренно дуплицированные модельные растения или виды, недавно пережившие умножение всего генома.

Проверка точности на реальных биологических историях

Чтобы показать работоспособность DupyliCate, авторы применили его к хорошо изучённым примерам из растительной биологии. Инструмент корректно обнаружил известные тандемные повторы ключевых генов, таких как ген SEC10 в одной разновидности Arabidopsis и кластер, контролирующий синтез пигмента кроцина в гардении. Он также выявил расширения генов, связанные с резистентностью к нематодам у сахарной свёклы и с продукцией витанолидов у лекарственного растения, группируя родственные гены в биологически значимые кластеры. За пределами растений инструмент обнаружил относительно мало дуплицированных генов в бактериях и дрожжах, но намного больше — у нематоды Caenorhabditis elegans, что соответствует предыдущим данным о её геноме.

Прослеживание истории растительных пигментов

DupyliCate — это не просто подсчёт копий генов; он помогает исследовать эволюцию семейств генов. Авторы использовали инструмент в двух тематических исследованиях, посвящённых растительным пигментам флавонолам, которые защищают растения от стрессов, например ультрафиолета. В одном случае они проследили историю генов флавонолсинтазы у представителей семейства капустных и их родственников. Они обнаружили, что одна ключевая функциональная копия широко распространена, в то время как другие копии в разных линиях расширялись, сокращались или превращались в псевдогены. Во второй масштабной выборке из 153 геномов растений они проследили два фактора транскрипции, MYB12 и MYB111, регулирующие синтез флавонолов. Эти регуляторы отсутствовали у водорослей и большинства ранних наземных растений, но диверсифицировались во многих цветковых, что проливает свет на то, как возникли сложные системы контроля растительной химии.

Figure 2. Как инструмент извлекает повторяющиеся сегменты генов и поэтапно сортирует их по различным типам дупликаций.
Figure 2. Как инструмент извлекает повторяющиеся сегменты генов и поэтапно сортирует их по различным типам дупликаций.

От сырых последовательностей к функциональным выводам

DupyliCate объединяет несколько типов доказательств в едином конвейере. Он очищает и стандартизирует файлы геномов, выравнивает белковые последовательности внутри и между видами, группирует дупликаты в информативные комплексы и по желанию может добавлять оценки эволюционного давления, а также данные экспрессии генов. Сравнивая силу выражения дубликатных генов и их расположение в филогенетических деревьях, инструмент помогает отличать вероятные новые функции, общие функции или утрату функции. Дизайн подчёркивает гибкие параметры, понятные оценки достоверности и поддержку как исследований одного вида, так и мультивидовых анализов.

Что это значит для будущих исследований геномов

Проще говоря, эта работа показывает, как превратить массивы сырых ДНК-данных в истории о том, как организмы приобрели новые способности. Автоматически находя и классифицируя дополнительные копии генов в многочисленных геномах, DupyliCate даёт исследователям инструмент для связи конкретных признаков, таких как толерантность к стрессу или синтез пигмента, с прошлыми событиями копирования в ДНК. Поскольку он работает с разными типами данных и масштабируется от небольших микробных геномов до больших коллекций видов растений, он, вероятно, станет полезной частью набора инструментов для изучения эволюции, сельского хозяйства и биоразнообразия.

Цитирование: Natarajan, S., Pucker, B. DupyliCate: mining, classifying, and characterizing gene duplications. Sci Rep 16, 16557 (2026). https://doi.org/10.1038/s41598-026-55350-x

Ключевые слова: дупликация генов, сравнительная геномика, эволюция растений, биоинформатические инструменты, анализ генома