Clear Sky Science · ru
Аннотирование 200 геномов насекомых с помощью BRAKER для сопоставимых межвидовых анализов
Почему геномы насекомых важны
Насекомые формируют наш мир: они опыляют сельскохозяйственные культуры, переносят болезни, перерабатывают органику и вдохновляют создание новых материалов и технологий. Сегодня мы можем читать ДНК тысяч видов насекомых, но наличие их геномов само по себе недостаточно. Нам также нужна понятная карта того, где находятся гены и какова их предполагаемая функция. В этой статье описывается крупная стандартизованная работа по аннотированию генов 200 видов насекомых с использованием автоматизированного конвейера VARUS-BRAKER, что сильно упрощает учёным сравнение видов и изучение того, как насекомые эволюционировали в такое удивительное разнообразие.
Проблема незавершённых генетических карт
За последние два десятилетия секвенирование геномов насекомых выросло с примерно двадцати видов до более четырёх тысяч. Тем не менее лишь около одной десятой этих геномов имеют корректную аннотацию генов в публичных базах данных. Даже когда аннотации есть, многие были созданы годами ранее с использованием устаревших методов и ограниченных данных. Разные исследовательские группы часто использовали разное программное обеспечение и разные виды доказательств, что может вносить искусственные различия: ген может казаться отсутствующим или иметь странную структуру в одном виде просто потому, что его аннотировали другим инструментом. Этот «лоскутный» набор методов делает рискованным проведение выводов о реальных различиях генов у насекомых между видами.

Однокнопочный конвейер для множества видов
Авторы устранили это узкое место, создав автоматизированный конвейер, построенный вокруг пайплайна предсказания генов BRAKER3. Система VARUS-BRAKER разработана так, что в самом простом режиме пользователю достаточно указать лишь научное название вида. Конвейер автоматически скачивает лучший доступный геном из публичных архивов, собирает соответствующие данные РНК-секвенирования, которые показывают, какие гены активны, и получает информацию о белках от родственных видов. Он маскирует повторяющиеся участки ДНК, выравнивает РНК-риды на геном и комбинирует «подсказки» от РНК и белков, чтобы обучить модели, где вероятнее всего начинаются, заканчиваются и сплайсятся гены. Проверки качества, такие как BUSCO и OMArk, затем оценивают полноту и чистоту полученного набора генов.
Широкое путешествие по дереву насекомых
С помощью этой системы команда аннотировала 200 геномов насекомых, отобранных так, чтобы покрыть основные ветви филогенетического древа насекомых, с акцентом на голометаболических насекомых — тех, у кого полное превращение от личинки к куколке и к имаго — а также с разнообразным набором родственных групп. Их выборка охватывает 77 семейств и 14 отрядов, включая мух, бабочек, жуков, пчёл, муравьёв, тлей, тараканов и другие. Восемьдесят пять из этих видов ранее не имели аннотации в GenBank. Для каждого вида конвейер предсказал белки-кодирующие гены, в результате чего получилось более 4,2 миллиона белковых последовательностей. Большинство геномов и их предсказанных протеомов успешно прошли строгие тесты на полноту, обычно достигая по крайней мере 85–95% покрытия ожидаемых основных генов, что указывает на высокое качество результатов автоматизированного подхода.

От списков генов к биологическому смыслу
Перечисление генов — лишь часть истории; исследователям также нужны подсказки о функциях этих генов. В этой связи авторы применили конвейер функционального аннотирования под названием FANTASIA, который использует современные языковые модели для белков, чтобы присваивать каждому белку термины Gene Ontology (GO) — стандартные метки биологических ролей. По сравнению с широко используемым инструментом InterProScan, FANTASIA аннотировала примерно в 1,6 раза больше белков, при этом по-прежнему демонстрируя высокое согласие там, где оба метода давали предсказания. Команда также сгруппировала родственные гены в «ортогруппы» — наборы генов, имеющих общего предка — и использовала их для построения эволюционного древа из 200 видов. Такая структура позволяет задавать вопросы о том, какие гены общие, какие утрачены или расширены в разных линиях насекомых, и связывать наборы генов с чертами, такими как метаморфоз или поведение личинок.
Перерабатываемый ресурс для будущих открытий
Все данные этого проекта — включая структуры генов, белковые последовательности, функциональные метки, ортогруппы, филогенетические деревья видов и предсказания тРНК — свободно доступны через публичные репозитории. Авторы также публикуют полный конвейер VARUS-BRAKER как код с открытым исходным текстом, чтобы другие учёные могли аннотировать новые геномы насекомых или даже других животных и растений в согласованном формате. Для неспециалистов главный вывод заключается в том, что эта работа превращает разбросанные последовательности ДНК в согласованный, сопоставимый атлас генов насекомых. С такими стандартизированными картами будущие исследования смогут надёжнее выяснять, как насекомые развили полёт, метаморфоз и экологический успех, а также лучше нацеливаться на гены, важные для сельского хозяйства, охраны природы и борьбы с болезнями.
Цитирование: Saenko, S., Hoff, K.J. & Stanke, M. Annotation of 200 Insect Genomes with BRAKER for Consistent Comparisons across Species. Sci Data 13, 288 (2026). https://doi.org/10.1038/s41597-026-06840-0
Ключевые слова: геномика насекомых, аннотирование генома, сравнительная геномика, эволюционная биология, биоинформатика