Clear Sky Science · ru
Геномный подход для точного определения близкородственных видов по образцам секвенирования нового поколения
Почему это важно для ферм и не только
Современное ДНК-секвенирование может прочитать генетический код животных с поразительной детализацией, но даже мощные компьютеры иногда затрудняются с казалось бы простым вопросом: принадлежат ли эти последовательности овце или козе? Для фермеров, заводчиков, специалистов по охране природы и ученых путаница видов в больших наборах ДНК-данных может сорвать исследования здоровья, продуктивности и эволюции. В этой статье предложен простой, но изящный способ отличать близкородственные виды — продемонстрированный на примере овец и коз — который смотрит не на каждую мелкую разницу в их ДНК, а на несколько участков, работающих как видоспецифические штрих-коды.

Проблема похожей ДНК
Овцы и козы разделяют большую часть своего генетического плана, поэтому короткие фрагменты ДНК одного вида часто почти так же хорошо соответствуют референсному геному другого. Авторы проанализировали данные полного секвенирования генома 40 животных с известной идентичностью — 20 овец и 20 коз — каждое с сотнями миллионов ридов. При использовании стандартных инструментов для выравнивания ридов к референсным геномам оказалось, что ДНК обоих видов очень хорошо выравнивалась как к овечьему, так и к козьему референсу. Коэффициенты выравнивания, глубины покрытия и показатели ошибок были очень похожи и сильно перекрывались, что делало практически невозможным с уверенностью определить, к какому виду принадлежит образец, опираясь только на эти рутинные статистики.
Почему стандартные классификаторы ДНК не справляются
Команда также протестировала Kraken2, популярную программу, которая пытается присвоить каждый ДНК-рид месту на древе жизни. Даже с обширной базой данных риды как овец, так и коз в основном классифицировались в одни и те же широкие группы животных, с лишь незначительными численными различиями между ними. Визуализации этих назначений показали, что большинство ридов обоих видов направлялось в одни и те же роды, что отражает степень общего с друг другом и с другими млекопитающими их генетического материала. На практике такие размытые границы означают, что традиционные таксономические инструменты могут ввести исследователей в заблуждение, если те предполагают, что помеченный как «овца» набор данных действительно принадлежит овцам, или что ошибочно промаркированный образец будет легко заметить.
Преобразование отсутствия покрытия в видоспецифический штрих-код
Вместо того чтобы спрашивать, насколько хорошо риды соответствуют референсу, авторы задали обратный вопрос: где они не соответствуют? Они выровняли тренировочный набор из 30 животных (15 овец, 15 коз) к обоим референсным геномам и просканировали регионы в поисках четкой схемы «вкл–выкл». Регион считался «козьим-специфичным», например, если у коз в этом месте при выравнивании к козьему геному стабильно наблюдалось нормальное покрытие, тогда как у овец в той же позиции почти не было ридов. При строгих порогах такой поиск дал более 150 000 кандидатных регионов у коз и свыше 1,7 миллиона у овец. После ручного отбора с упором на более длинные, четко разделенные отрезки команда сузила список до всего лишь десяти высоконадёжных регионов на вид — коротких участков ДНК, где один вид стабильно «зажигается», а другой остается темным.

Простой тест для неизвестных образцов
Имея эти 20 регионов, авторы разработали простую процедуру тестирования для любого немаркированного набора ДНК-ридов. Сначала выровнять риды к обоим референсным геномам — овечьему и козьему. Затем измерить, сколько покрытия (накопление ридов) приходится на десять овечьих регионов в овечьем геноме и на десять козьих регионов в козьем геноме. Если овечьи регионы показывают сильное покрытие, а козьи практически пусты, образец — овца; если картина обратна, это коза. Применённый к 14 независимым валидационным образцам, включая общедоступные данные с разных секвенаторов и даже химически модифицированную ДНК, этот тест на основе паттернов правильно идентифицировал каждый образец, достигнув 100% точности в изученной выборке.
Новые инструменты и будущие применения
Помимо решения практической задачи для исследований овец и коз, эта работа предлагает общую схему, которую можно адаптировать к другим парам — или группам — близкородственных видов. Отобранные регионы служат строительными блоками для будущих инструментов: от быстрых лабораторных тестов, амплифицирующих только эти видоспецифические участки, до автоматизированного ПО, сканирующего старые наборы секвенирования на предмет ошибочной маркировки. Хотя метод требует выравнивания данных по нескольким референсным геномам, что увеличивает время расчёта и объём хранения, он избегает многих подводных камней традиционных подходов и устойчив к различиям пород и платформ секвенирования. Проще говоря, авторы показали, как небольшое число тщательно подобранных генетических ориентиров даёт ясный и надёжный ответ на вопрос, который большие и сложные алгоритмы нередко решают неверно: какое это животное?
Цитирование: dain Marzouka, N.a., Al-Aamri, A., Alshamsi, F. et al. A genomic approach for accurate identification of closely related species with next-generation sequencing samples. Sci Rep 16, 11329 (2026). https://doi.org/10.1038/s41598-026-41497-0
Ключевые слова: идентификация видов, полное секвенирование генома, овцы и козы, сравнительная геномика, генетика животных