Clear Sky Science · ru
Использование взвешенных встраиваний и архитектуры Transformer для улучшения прогнозирования фенотипов сложных признаков у сельскохозяйственных культур
Более умная селекция для лучших культур
Чтобы прокормить растущее население, требуется селекция культур с повышенной урожайностью, устойчивостью к стрессам и улучшенным питательным составом. Тем не менее выбор, какие линии скрещивать, долгое время опирался на медленные испытания в полевых условиях методом проб и ошибок. В этом исследовании представлена новая модель искусственного интеллекта, которая учится напрямую по ДНК предсказывать, как будет вести себя растение, что обещает более быстрые и точные селекционные решения для культур, таких как соя, кукуруза, рис и пшеница.
От кода ДНК к наблюдаемым признакам
В каждом растении есть миллионы мелких различий в ДНК, которые в сумме формируют такие признаки, как содержание жира, урожайность или устойчивость к засухе. Традиционные статистические методы могут использовать эту информацию, но испытывают трудности, когда данные огромны, а генетические эффекты малы и распределены по всему геному. Авторы решают эту проблему, рассматривая длинные фрагменты ДНК как сложный язык и применяя модель, которая может глубже «читать» этот язык, замечая не только явные сигналы, но и многочисленные мелкие варианты, которые в сумме приводят к существенным отличиям в поле.

Новая модель, улавливающая важные генетические сигналы
Команда разработала GP-WAITER — архитектуру глубокого обучения, объединяющую две идеи. Во-первых, она использует результаты исследований ассоциаций по всему геному, которые отмечают сайты ДНК, статистически связанные с признаками, чтобы присвоить каждому генетическому маркеру числовой «вес», отражающий его информативность. Во-вторых, эти взвешенные маркеры подаются в гибридную систему, сочетающую сверточные слои, эффективные в обнаружении локальных паттернов, с модулем Transformer, известным по языковым моделям благодаря способности улавливать дальние зависимости. Разбивая сверхдлинные последовательности ДНК на управляемые блоки и уделяя внимание важным регионам, GP-WAITER может отслеживать, как отдалённые генетические варианты взаимодействуют, формируя признак.
Более высокая точность и быстрее вычисления для разных культур
Для проверки GP-WAITER исследователи собрали шесть больших наборов данных, охватывающих тысячи линий сои, кукурузы, риса и пшеницы, а также широкий спектр питательных и агрономических признаков. Они сравнили новую модель с семью ведущими инструментами прогнозирования, включая классические линейные методы, подходы машинного обучения, такие как градиентный бустинг, и другие глубокие сети и модели на базе Transformer. По всем наборам данных GP-WAITER последовательно давала более точные прогнозы, в некоторых случаях повышая точность примерно до трёх четвертей и снижая ошибку прогнозирования до 78 процентов. На очень большом наборе сои с сотнями тысяч маркеров ДНК модель также обучалась существенно быстрее, чем конкурирующие глубокие модели, при этом требуя меньше видеопамяти, что демонстрирует её способность эффективно работать с данными масштаба реальной селекции.

Открывая «чёрный ящик» ИИ в генетике
Распространённая обеспокоенность в отношении глубокого обучения — его поведение похоже на «чёрный ящик», из которого биологам трудно понять причины предсказания. Авторы решили эту проблему с помощью SHAP — популярного метода объяснимого ИИ, чтобы оценить вклад каждого варианта ДНК в предсказания модели. Они обнаружили, что GP-WAITER часто выделяет варианты, расположенные в генах или регуляторных областях, уже известных как влияющие на ключевые соединения, такие как витамин E, каротиноиды и изофлавоны в семенах сои. В некоторых случаях модель указывала на перспективные варианты, которые стандартные ассоциативные тесты пропустили, что говорит о её способности обнаруживать как сильные, так и тонкие генетические сигналы, важные для питания и урожайности.
Что это значит для будущей селекции культур
Объединив взвешенную генетическую информацию с мощной архитектурой на основе внимания, GP-WAITER предлагает практичный способ более точно предсказывать признаки растений, при этом сохраняя прозрачную связь с биологической основой. Для селекционеров это означает возможность ранжировать тысячи кандидатных линий только по данным ДНК, сосредоточить полевые испытания на наиболее перспективных скрещиваниях и легче выявлять генетические регионы, на которые стоит ориентироваться в целевой селекции. Для широкой публики работа демонстрирует, как передовые методы ИИ могут помочь ускорить создание лучших культур, способствуя более устойчивым и питательным продовольственным системам без необходимости тестировать каждое растение во всех средах.
Цитирование: Li, J., Yu, L., Li, M. et al. Leveraging weighted embedding and Transformer architecture to improve phenotype prediction of complex traits for crops. Nat Commun 17, 4427 (2026). https://doi.org/10.1038/s41467-026-71035-5
Ключевые слова: геномное прогнозирование, селекция культур, модель Transformer, генетика сои, машинное обучение в сельском хозяйстве