Clear Sky Science · ru
XL-MSDigger: универсальное решение на основе глубинного обучения для масс-спектрометрии с кросс-связыванием
Увидеть, как белки держатся вместе
Каждый процесс в нашем организме зависит не только от того, как белки сворачиваются в нужные формы, но и от того, с кем они объединяются. Наблюдать такие молекулярные отношения в действии чрезвычайно трудно. В этом исследовании представлена платформа XL-MSDigger — программное обеспечение, которое использует современные методы искусственного интеллекта, чтобы извлекать гораздо более четкие сигналы из шумного экспериментального подхода, называемого масс-спектрометрией с кросс-связыванием, помогая ученым картировать расположение белков и их взаимодействия внутри клетки.
Распутывание густонаселенного молекулярного мира
Чтобы понять, как устроены белки и как они соединяются между собой, исследователи часто используют масс-спектрометрию с кросс-связыванием. В этом подходе небольшие химические «мосты» связывают близко расположенные участки белков друг с другом. Связанные фрагменты затем разрушают на пептиды и взвешивают в масс-спектрометре. В теории pattern фрагментов раскрывает, какие участки белка были близки в пространстве, подобно тому как можно определить, какие страницы книги были скреплены вместе. На практике получаемые данные чрезвычайно сложны. Существующие программы в основном учитывают лишь базовую массу и испытывают трудности с огромным числом возможных комбинаций, что ведет к пропущенным связям и ложным совпадениям.

Обучение нейросети языку фрагментов белков
Авторы создали модель глубинного обучения Deep4D-XL, чтобы лучше интерпретировать эти эксперименты с кросс-связыванием. Сначала они составили большой эталонный набор, кросс-связывая белки из человеческих клеток, расщепляя их на пептиды и регистрируя не только массы, но и время их прохождения через прибор и поведение в камере ионной мобильноcти. Каждая пара кросс-связанных пептидов была закодирована для модели, которая использует двойной «сиамский» дизайн для чтения обоих партнеров и этап перекрестного внимания для объединения их информации. На основе этого сеть учится предсказывать три ключевых свойства любого нового кросс-связанного пептида: когда он должен появиться в эксперименте, как он должен перемещаться и как должен выглядеть его паттерн фрагментации.
Превращение предсказаний в более чистые сигналы
XL-MSDigger инкапсулирует этот предсказательный движок в аналитические рабочие процессы для двух основных режимов сбора данных. В традиционном целевом режиме прибор избирательно регистрирует фрагменты ионов, выбранных на лету. XL-MSDigger берет начальные совпадения из признанного поискового ПО и переоценивает их с учетом предсказанного поведении модели для каждого кандидата. Вторая нейросеть сравнивает предсказание и эксперимент по нескольким параметрам и присваивает улучшенные оценки. Этот этап повторной оценки почти удваивает число уверенно обнаруженных связей между разными белками в образцах дрожжей и человека при сохранении низких уровней ошибок, выявляя значительно больше белок–белковых взаимодействий, чем раньше.
Осмысление потоков неселективных данных
Новый способ работы приборов, называемый сбором данных без селекции (data-independent acquisition), регистрирует фрагменты почти всего в образце, расширяя покрытие, но порождая подавляющий объем данных. До сих пор не было надежного способа оценить, сколько из полученных кросс-ссылок действительно истинны. XL-MSDigger использует Deep4D-XL для создания тщательно согласованной «декой» библиотеки фиктивных кросс-ссылок, затем анализирует реальные и декой-записи вместе. Видя, как часто декой проходит через фильтры, ПО может оценить уровень ложных открытий и обучить еще одну нейросеть отделять истинные совпадения от ложных. Эта повторная оценка увеличивает число достоверных кросс-связанных сигналов примерно в пять раз и обеспечивает четкое разделение между реальными и декой-паттернами.

Предсказание того, что ещё не измерено
Поскольку модель способна предсказывать поведение любого правдоподобного кросс-связанного пептида, команда пошла дальше и проанализировала данные на предмет связей, которые не были напрямую измерены ранее. Они создают библиотеки умеренного размера, ориентированные на выбранные белки или сети взаимодействий, и затем ищут неселективные данные по этим библиотекам. Эта стратегия выявляет дополнительные связи внутри отдельных белков и между партнерами важных шапероновых белков, с расстояниями, хорошо согласующимися с известными трехмерными структурами. Она также восстанавливает взаимодействия, пропущенные традиционными, более ограниченными экспериментальными библиотеками, особенно для мало представленных связей.
Открывая более ясное окно в партнерства белков
Для неспециалистов главное сообщение в том, что XL-MSDigger действует как высококвалифицированный распознаватель паттернов, наложенный на уже мощный экспериментальный метод. Изучая, как настоящие кросс-связанные сигналы должны выглядеть одновременно в нескольких измерениях, он может просеивать огромные, шумные наборы данных, отбрасывать вероятных самозванцев и восстанавливать реальные, ранее скрытые белковые связи. Хотя применение к целому протеому по-прежнему потребует значительных вычислительных ресурсов, эта работа демонстрирует, что сочетание экспериментов с кросс-связыванием и глубинного обучения может значительно прояснить наше представление о том, как белки расположены и с кем они встречаются внутри клетки.
Цитирование: Chen, M., Hao, Y., Huang, X. et al. XL-MSDigger: a deep learning-based, versatile solution for cross-linking mass spectrometry. Nat Commun 17, 2554 (2026). https://doi.org/10.1038/s41467-026-69489-8
Ключевые слова: взаимодействия белков, масс-спектрометрия с кросс-связыванием, глубинное обучение, протеомика, сбор данных без селекции (data-independent acquisition)