Clear Sky Science · ru
Ускорение открытия природных веществ с помощью связанных MS-геномики и моделей на основе языков/трансформеров
Почему новые лекарства прячутся на виду
Многие из наших важнейших лекарств, включая антибиотики и препараты против рака, происходят от крошечных микробов, синтезирующих сложные природные вещества. Однако поиск новых молекул в этой скрытой «аптеке» медленный и дорогой: учёным приходится просеивать огромные коллекции микроорганизмов и угадывать, какие из них стоит тестировать. В этой статье показано, как сочетание продвинутого искусственного интеллекта и современных лабораторных измерений может значительно ускорить поиск, помогая исследователям сосредоточиться на наиболее перспективных штаммах до проведения трудоёмких экспериментов. 
Преобразование ДНК микроба в поискoвую карту
Первая часть подхода анализирует генетические «планы» микробов. Вместо того чтобы полагаться только на традиционное сопоставление ДНК, команда применяет мощные языковые модели белков — ИИ-системы, извлекшие закономерности из миллионов последовательностей белков. Эти модели преобразуют каждый биосинтетический белок в высокоразмерный числовой отпечаток. Это позволяет обнаруживать дальних функциональных «родственников» даже когда сама ДНК сильно изменилась или представлена фрагментами, что часто случается в черновых геномах. Исследователи затем начисляют каждому микроорганизму оценку по числу белков, похожих на те, что входят в известный путь синтеза целевой молекулы, и по общей силе этого сходства. Такой составной балл выделяет штаммы, чей совокупный набор белков выглядит способным синтезировать искомое соединение, и одновременно понижает значимость микроорганизмов, имеющих лишь один–два распространённых, не специализированных фермента.
Чтение сложных химических смесей с помощью ИИ
Вторая часть сосредоточена на том, что микробы действительно производят в лаборатории. С применением жидкостной хроматографии и тандемной масс-спектрометрии учёные фиксируют детализированные «отпечатки» молекул в ферментационных бульонах. Собственная система авторов — Workflow for Intelligent Structural Elucidation (WISE) — очищает эти сигналы, разделяет перекрывающиеся пики и затем использует ИИ-модели, обученные на миллионах структур, похожих на природные продукты, чтобы предсказать, какие формы молекул лучше всего соответствуют каждому спектру. Модель на базе трансформера предсказывает, как должны выглядеть спектры кандидатов, а комбинированный балл взвешивает, насколько наблюдаемые и предсказанные паттерны совпадают, включая такие тонкие детали, как изотопные соотношения и точная масса. Анализируя распределение этих баллов на стандартном бенчмарке, команда находит пороги, отделяющие вероятные реальные совпадения от шума или сходных по виду обманок, что позволяет пометить некоторые структурные догадки как высоконадежные и отфильтровать явно неверные.
Объединение генов и химии
Реальная сила метода возникает из слияния этих двух потоков информации. Чтобы микроб поднялся в верх списка по интересующей молекуле, он должен одновременно проявлять генетический потенциал — его белки похожи на белки в известном пути — и химические свидетельства — он даёт спектральные признаки, соответствующие ожидаемой структуре. Такое перекрёстное сверение снижает число ложных наводок, выглядящих правдоподобно лишь по одному типу данных. Авторы протестировали свою схему на большой коллекции актинобактериальных штаммов и мутантов, сосредоточившись на трёх очень разных антимикробных соединениях: валиномицин, сурфактин и антибиотик неомицин B. Система хорошо работает даже когда данные шумные или неполные — обычная ситуация в кампаниях раннего этапа открытия — и не требует совершенных геномов или полноценных спектральных библиотек. 
Проверка подхода в реальной задаче
В случае неомицин B ИИ сначала искал микробы, чьи белки были похожи на белки в известном пути синтеза неомицина, затем проверял, указывают ли их масс-спектры на наличие неомициноподобных молекул. Четыре штамма прошли оба фильтра; у трёх из них экспериментально подтвердили производство неомицина B, включая двух ранее нераспознанных производителей. Для валиномицина и сурфактина система также точно выявила производителей, в то время как контрольный тест со случайной перестановкой оценок дал значительно худшие результаты. Эти выводы показывают, что модель улавливает реальные биологические связи, а не случайные совпадения в данных, и что она может успешно направлять исследователей к наиболее вероятным «хитам» в переполненном пространстве поиска.
Что это значит для будущих разработок лекарств
Проще говоря, авторы создали умный рекомендательный движок для открытия природных продуктов. Вместо того чтобы проверять каждый микроорганизм и каждый химический сигнал грубой силой, учёные теперь могут сосредоточиться на коротком списке штаммов, где генетический потенциал и химическая продукция сходятся. Это значительно сокращает напрасные усилия, при этом оставляя возможность обнаружить неожиданные молекулы, ещё не внесённые в справочники. По мере улучшения ИИ-моделей и наборов данных такая интегрированная геномная и метаболомная логика может открыть обширные области микробной химии, остающиеся неизведанными, и потенциально привести к выявлению новых антибиотиков и других полезных соединений как раз тогда, когда обществу это наиболее необходимо.
Цитирование: Tay, D.W.P., Koh, W., Ang, S.J. et al. Accelerating natural product discovery with linked MS-genomics and language/transformer-based models. npj Antimicrob Resist 4, 31 (2026). https://doi.org/10.1038/s44259-026-00206-7
Ключевые слова: открытие природных соединений, микробные метаболиты, масс-спектрометрия, языковые модели белков, ИИ в разработке лекарств