Clear Sky Science · ru
Тонкая настройка AlphaFold на основе ограниченных наблюдений cryo-EM
Почему формы белков так трудно увидеть
Белки — крошечные молекулярные машины, управляющие почти всеми процессами в нашем организме: от выработки энергии до передачи нервных сигналов. Чтобы понять, как они работают и как лекарства могут на них влиять, учёным нужны их точные трёхмерные формы. Для этой задачи появились два мощных инструмента: крио‑электронная микроскопия (cryo‑EM), которая делает множество размытых снимков замороженных белков, и AlphaFold — система искусственного интеллекта, предсказывающая структуры белков по их последовательностям. Однако в реальных экспериментах данные cryo‑EM часто неполные, а предсказания AlphaFold не всегда соответствуют реальности. В этой работе представлен CoCoFold — метод, который учит AlphaFold напрямую учитывать сложные данные cryo‑EM и тем самым улучшать свои предсказания.

Когда камера видит слишком мало
Cryo‑EM работает путём быстрой заморозки белков и съёмки огромного числа отдельных частиц с разных углов, затем эти изображения комбинируют в 3D‑карту. На практике же у исследователей часто нет достаточного количества качественных снимков. Иногда белок существует в высокоэнергетическом состоянии очень недолго, и поэтому захваченных частиц очень мало. В других случаях белки предпочитают определённые ориентации на поверхности льда, и многие углы обзора отсутствуют. Обе проблемы приводят к расплывчатым, неполным картам, которые трудно превратить в надёжные атомные модели. Существующее ПО может подгонять предсказанные AlphaFold структуры под такие карты, но его успех сильно зависит от наличия чётких данных высокого разрешения с самого начала.
Обучение AlphaFold работать с исходными изображениями
CoCoFold использует иной подход: вместо того чтобы полагаться на полностью восстановленную 3D‑карту cryo‑EM, он напрямую использует исходные 2D‑изображения частиц для тонкой настройки AlphaFold. Метод начинается с предсказания AlphaFold‑Multimer и фиксирует большую часть исходной сети, сохраняя её обширные знания о сворачивании белков. Изменяться разрешается лишь финальной части, формирующей структуру. Лёгкий «адаптер» добавляется, чтобы передавать информацию, извлечённую из изображений cryo‑EM, в этот структурный модуль, мягко подталкивая модель в сторону форм, совместимых с экспериментальными данными, при этом избегая резких отклонений от известных физических ограничений белков.
Преобразование изображений в структурную обратную связь
Чтобы связать отдельные атомы белка с шумными микроскопическими изображениями, CoCoFold строит гладкое, гибкое представление предсказанной структуры с помощью перекрывающихся трёхмерных «пятен», известных как гауссовская смесь. Из этого представления он моделирует, как белок выглядел бы в микроскопе при тех же направлениях обзора и условиях съёмки, что и в реальном эксперименте. Эти смоделированные снимки затем сравниваются с реальными частицами cryo‑EM, кольцо за кольцом в частотной области, чтобы оценить степень совпадения. Любое несовпадение превращается в сигнал обратной связи, который возвращается в сеть, слегка корректируя как модель белка, так и представление плотности. После обучения атомную модель дополнительно очищают с помощью физически обоснованной доработки, чтобы устранить локальные геометрические конфликты.

Сохранение точности при скудных или смещённых данных
Авторы протестировали CoCoFold на нескольких экспериментальных и смоделированных наборах данных, имитирующих две ключевые проблемы cryo‑EM: недостаток частиц и большие пробелы в углах обзора. В этих тяжёлых условиях стандартные инструменты — в том числе другие методы глубокого обучения, зависящие от восстановленных карт — склонны пропускать участки белка, неправильно располагать спирали или терять тонкие детали по мере размывания карт. CoCoFold, напротив, последовательно выдавал модели, которые ближе и полнее соответствовали известным эталонным структурам. Его ошибки оставались небольшими даже при резком уменьшении числа частиц или при отсутствии больших конусов направлений обзора, что свидетельствует о том, что прямое обучение по исходным изображениям сохраняет важную информацию, которую подходы, основанные на картах, теряют.
Что это значит для будущей структурной биологии
Для неспециалистов ключевая мысль заключается в том, что CoCoFold выступает переводчиком между мощными AI‑предсказаниями и несовершенными экспериментальными данными. Вместо того чтобы полагаться только на AlphaFold или только на cryo‑EM, он позволяет обоим источникам информировать друг друга, особенно в сложных случаях, когда эксперименты дают лишь частичную картину. В простых ситуациях с обильными и высококачественными данными инструменты, основанные на картах, по‑прежнему отлично работают. Но когда частиц мало или отсутствуют ориентации — что часто случается при изучении мимолётных или хрупких состояний белков — CoCoFold предлагает способ восстановить надёжные атомные модели из информации, которая в противном случае была бы потеряна.
Цитирование: Liao, J., Zheng, D., Zhang, H. et al. Fine-tuning AlphaFold with limited cryo-EM observations. Commun Chem 9, 95 (2026). https://doi.org/10.1038/s42004-026-01899-7
Ключевые слова: cryo-EM, AlphaFold, структура белка, глубокое обучение, структурная биология