Clear Sky Science · ru
Высокоточное назначение хозяев бактериофагов по ключевым белкам с помощью больших языковых моделей
Охота на невидимые вирусы в нашем кишечнике
В каждом человеке обитает триллионы бактерий и их вирусов в кишечнике, многие из которых пока неизвестны. Эти скрытые вирусы могут влиять на наше здоровье — от пищеварения до ожирения, — однако учёным часто неизвестно, какой вирус поражает какую бактерию. В этом исследовании представлен VirHost Hunter, новый инструмент на основе данных, который связывает кишечные вирусы с их бактериальными хозяевами, используя лишь несколько ключевых вирусных белков, что открывает путь к более точному изучению и потенциальному управлению микробиомом.
Новый способ сопоставлять вирусы и бактерии
Традиционные методы связывания вирусов с их хозяевами опираются на полные вирусные геномы или на особые генетические признаки, такие как отметки CRISPR. Эти подходы работают только при наличии подходящих эталонных данных и могут упускать большую часть вирусных последовательностей, часто называемых вирусной тёмной массой. Авторы вместо этого сосредотачиваются на двух типах вирусных белков, центральных для инфекции: хвостовые белки, которые помогают вирусу распознавать и прикрепляться к бактерии, и лизины, которые помогают разрушать клеточную стенку бактерии. Сосредоточившись на этих белках, они избегают шума от несвязанных генов и могут работать даже при наличии лишь фрагментов вирусного генома.

Обучение компьютеров языку белков и ДНК
Чтобы извлечь смысл из этих белков, команда использует методы машинного обучения, изначально разработанные для человеческого языка. Они применяют языковую модель белков ProtT5, чтобы преобразовать последовательности аминокислот в плотные числовые представления, которые улавливают скрытые функциональные сходства, даже когда последовательности на первый взгляд сильно различаются. Параллельно они анализируют ДНК, кодирующую эти белки, с помощью модели Vision Transformer и многопутной сверточной сети, которые вместе выявляют такие признаки, как типичное использование кодонов и дальнодействующие паттерны вдоль ДНК. Эти сигналы от белков и ДНК затем объединяются и поступают в пару классификаторов, которые совместно определяют, к какому семейству, роду или виду бактерий вероятнее всего принадлежит хозяин данного вируса.
Более чёткие и глубокие предсказания хозяев
Исследователи протестировали VirHost Hunter на нескольких эталонных коллекциях бактериофагов. Они показывают, что сочетание информации о белках и ДНК явно превосходит использование только одного типа данных, а фокус на хвостовых белках и лизинах даёт лучшие предсказания, чем использование других вирусных частей, таких как головки или упаковочные ферменты. На разных уровнях бактериальной классификации VirHost Hunter точнее существующих инструментов без выравнивания и остаётся надёжным даже при низком сходстве последовательностей. При оценке на культивируемых кишечных фагах с экспериментально известными хозяевами он определяет правильных хозяев с большей точностью, чем стандартный метод, основанный на CRISPR, а комбинация обоих подходов даёт ещё лучшие результаты.
Выявление скрытых кишечных вирусов, связанных с заболеваниями
Вооружённые откалиброванной моделью, авторы применили VirHost Hunter к большой базе данных Gut Phage Database, в которой ранее информация о хозяевах была менее чем для трети записей. Сканируя хвостовые белки и лизины, они почти вдвое увеличили долю фагов с назначенными хозяевами и обнаружили вирусы, поражающие 29 семейств кишечных бактерий, многие из которых связаны с хроническими состояниями, такими как воспалительные заболевания кишечника, сердечные болезни и ожирение. В частности, они нашли десятки ранее нехарактеризованных фагов, прогнозируемых как инфицирующие бактерии типа Akkermansia muciniphila и Prevotella copri, которые связывали с аутоиммунными и метаболическими нарушениями, но для которых раньше не было известных фагов.

От цифровых предсказаний к целевому антимикробному средству
Чтобы превратить эти предсказания в практический ресурс, авторы создали базу данных Gut Phage Lysin Database, содержащую более ста тысяч лизинов с сопоставленными кишечными хозяевами. Они изучили их структуры, стабильность и разнообразие, выявив множество различных кластеров и консервативных мотивов, ответственных за разрушение бактериальных клеточных стенок. В качестве доказательства концепции они выбрали один лизин, предсказанный как специфически нацеленный на Megamonas — бактерию, ассоциированную с ожирением. После синтеза этого белка они показали в лабораторных тестах, что он эффективно убивает Megamonas, при этом щадя другие распространённые кишечные микроорганизмы и пробиотические штаммы, что иллюстрирует, как ориентированная моделью разработка из вирусной тёмной массы может привести к высокоспецифичным инструментам.
Почему это важно для будущего ухода за микробиомом
Эта работа показывает, что возможно связать огромное число неизвестных кишечных вирусов с их бактериальными хозяевами, используя лишь несколько ключевых белков и современные методы машинного обучения. Осветив, кто кого заражает в микробиоме, VirHost Hunter расширяет наши возможности изучать вирусное разнообразие кишечника и разрабатывать точечные вмешательства, такие как специально подобранные лизины, которые избирательно подавляют вредные бактерии, не нарушая при этом более широкое микробное сообщество. Хотя до клинического применения потребуется дополнительное тестирование и инженерная доработка, эта рамочная методика даёт мощную дорожную карту для превращения скрытых вирусных последовательностей в нацеленые стратегии для изучения и, возможно однажды, настройки нашей внутренней экосистемы.
Цитирование: Du, Z., Li, M., Lin, K. et al. High-resolution phage-host assignment through key proteins using large language models. Nat Commun 17, 4439 (2026). https://doi.org/10.1038/s41467-026-70613-x
Ключевые слова: кишечный вириом, бактериофаги, машинное обучение, фаговые лизины, терапия микробиома