Clear Sky Science · ru

Использование взвешенных встраиваний и архитектуры Transformer для улучшения прогнозирования фенотипов сложных признаков у сельскохозяйственных культур

· Назад к списку

Более умная селекция для лучших культур

Чтобы прокормить растущее население, требуется селекция культур с повышенной урожайностью, устойчивостью к стрессам и улучшенным питательным составом. Тем не менее выбор, какие линии скрещивать, долгое время опирался на медленные испытания в полевых условиях методом проб и ошибок. В этом исследовании представлена новая модель искусственного интеллекта, которая учится напрямую по ДНК предсказывать, как будет вести себя растение, что обещает более быстрые и точные селекционные решения для культур, таких как соя, кукуруза, рис и пшеница.

От кода ДНК к наблюдаемым признакам

В каждом растении есть миллионы мелких различий в ДНК, которые в сумме формируют такие признаки, как содержание жира, урожайность или устойчивость к засухе. Традиционные статистические методы могут использовать эту информацию, но испытывают трудности, когда данные огромны, а генетические эффекты малы и распределены по всему геному. Авторы решают эту проблему, рассматривая длинные фрагменты ДНК как сложный язык и применяя модель, которая может глубже «читать» этот язык, замечая не только явные сигналы, но и многочисленные мелкие варианты, которые в сумме приводят к существенным отличиям в поле.

Figure 1. ИИ-модель использует закономерности в ДНК растений, чтобы предсказывать их признаки и помогать принимать лучшие решения при селекции
Figure 1. ИИ-модель использует закономерности в ДНК растений, чтобы предсказывать их признаки и помогать принимать лучшие решения при селекции

Новая модель, улавливающая важные генетические сигналы

Команда разработала GP-WAITER — архитектуру глубокого обучения, объединяющую две идеи. Во-первых, она использует результаты исследований ассоциаций по всему геному, которые отмечают сайты ДНК, статистически связанные с признаками, чтобы присвоить каждому генетическому маркеру числовой «вес», отражающий его информативность. Во-вторых, эти взвешенные маркеры подаются в гибридную систему, сочетающую сверточные слои, эффективные в обнаружении локальных паттернов, с модулем Transformer, известным по языковым моделям благодаря способности улавливать дальние зависимости. Разбивая сверхдлинные последовательности ДНК на управляемые блоки и уделяя внимание важным регионам, GP-WAITER может отслеживать, как отдалённые генетические варианты взаимодействуют, формируя признак.

Более высокая точность и быстрее вычисления для разных культур

Для проверки GP-WAITER исследователи собрали шесть больших наборов данных, охватывающих тысячи линий сои, кукурузы, риса и пшеницы, а также широкий спектр питательных и агрономических признаков. Они сравнили новую модель с семью ведущими инструментами прогнозирования, включая классические линейные методы, подходы машинного обучения, такие как градиентный бустинг, и другие глубокие сети и модели на базе Transformer. По всем наборам данных GP-WAITER последовательно давала более точные прогнозы, в некоторых случаях повышая точность примерно до трёх четвертей и снижая ошибку прогнозирования до 78 процентов. На очень большом наборе сои с сотнями тысяч маркеров ДНК модель также обучалась существенно быстрее, чем конкурирующие глубокие модели, при этом требуя меньше видеопамяти, что демонстрирует её способность эффективно работать с данными масштаба реальной селекции.

Figure 2. Взгляд изнутри на то, как взвешенные маркеры ДНК проходят через нейронную сеть, выделяя ключевые варианты
Figure 2. Взгляд изнутри на то, как взвешенные маркеры ДНК проходят через нейронную сеть, выделяя ключевые варианты

Открывая «чёрный ящик» ИИ в генетике

Распространённая обеспокоенность в отношении глубокого обучения — его поведение похоже на «чёрный ящик», из которого биологам трудно понять причины предсказания. Авторы решили эту проблему с помощью SHAP — популярного метода объяснимого ИИ, чтобы оценить вклад каждого варианта ДНК в предсказания модели. Они обнаружили, что GP-WAITER часто выделяет варианты, расположенные в генах или регуляторных областях, уже известных как влияющие на ключевые соединения, такие как витамин E, каротиноиды и изофлавоны в семенах сои. В некоторых случаях модель указывала на перспективные варианты, которые стандартные ассоциативные тесты пропустили, что говорит о её способности обнаруживать как сильные, так и тонкие генетические сигналы, важные для питания и урожайности.

Что это значит для будущей селекции культур

Объединив взвешенную генетическую информацию с мощной архитектурой на основе внимания, GP-WAITER предлагает практичный способ более точно предсказывать признаки растений, при этом сохраняя прозрачную связь с биологической основой. Для селекционеров это означает возможность ранжировать тысячи кандидатных линий только по данным ДНК, сосредоточить полевые испытания на наиболее перспективных скрещиваниях и легче выявлять генетические регионы, на которые стоит ориентироваться в целевой селекции. Для широкой публики работа демонстрирует, как передовые методы ИИ могут помочь ускорить создание лучших культур, способствуя более устойчивым и питательным продовольственным системам без необходимости тестировать каждое растение во всех средах.

Цитирование: Li, J., Yu, L., Li, M. et al. Leveraging weighted embedding and Transformer architecture to improve phenotype prediction of complex traits for crops. Nat Commun 17, 4427 (2026). https://doi.org/10.1038/s41467-026-71035-5

Ключевые слова: геномное прогнозирование, селекция культур, модель Transformer, генетика сои, машинное обучение в сельском хозяйстве