Clear Sky Science · ru
Использование обученных представлений и многозадачного обучения для обнаружения сайтов метилирования лизина
Почему важны крошечные метки на белках
Внутри каждой клетки белки постоянно модифицируются малыми химическими метками, которые могут включать или выключать их активность. Одна из таких меток — метилирование лизина — помогает контролировать работу генов и всё чаще связывается с раком и другими заболеваниями. Однако определять точные позиции этих меток на тысячах белков в лаборатории медленно и дорого. В этом исследовании представлена MethylSight 2.0 — мощная компьютерная модель, которая анализирует последовательности белков и предсказывает, какие лизины с высокой вероятностью метилированы, помогая учёным гораздо быстрее открывать новую биологию и потенциальные мишени для лекарств.
Скрытые переключатели на белках
Белки состоят из цепочек аминокислот, и лизин — одна из ключевых позиций, куда клетки могут добавить химические метки. Метилирование лизина уже известно как фактор, контролирующий упаковку ДНК в ядре и влияющий на включение или выключение генов. Но многие события метилирования лизина происходят на нехистоновых белках, которые формируют цитоскелет клетки, обеспечивают её «механические двигатели» и передают сигналы. Несколько ферментов, устанавливающих эти метки, гиперактивны при раке, что делает их привлекательными целями для лекарств. Проблема в том, что экспериментальное обнаружение метилирования по всему человеческому протеому требует огромного времени, денег и специализированного оборудования, поэтому исследователи обращаются к инструментам предсказания, чтобы сосредоточить лабораторную работу на наиболее перспективных сайтах.

Обучение компьютеров «языку» белков
Авторы опираются на недавние достижения в области «языковых моделей белков» — алгоритмов, обученных на миллионах и миллиардах белковых последовательностей, которые улавливают закономерности, связывающие последовательность со структурой и функцией. Эти модели переводят каждую аминокислоту в белке в богатое числовое представление, отражающее её химическое окружение и трёхмерный контекст. Используя такие представления для каждого лизина и его соседей, команда протестировала несколько архитектур нейросетей, включая простые многослойные персептроны и более продвинутую трансформерную архитектуру. Они тщательно курировали обучающие данные из публичных баз, выбирая участки метилирования с высокой достоверностью и формируя реалистичные отрицательные примеры, а также избегая избыточности, которая могла бы искусственно завышать показатели.
Обучение на других химических метках
Клетки не метят лизин в изоляции. В той же позиции может происходить ацетилирование, убикувитинирование или сумойлирование, и эти метки могут конкурировать или взаимодействовать, влияя на итоговую модификацию. Исследователи предположили, что закономерности, связанные с этими другими метками, могут помочь модели лучше распознавать метилирование. Они превратили задачу в многозадачную, обучив одну сеть на базе трансформера предсказывать четыре типа модификаций лизина одновременно, при этом разделяя большую часть внутренних параметров. Такая схема позволяет знаниям, полученным для одного типа модификации, укреплять предсказания для других, особенно для метилирования, для которого известно меньше примеров.
Лучшие предсказания и подтверждение в лаборатории
Многозадачная трансформерная модель, названная MethylSight 2.0, значительно превзошла предыдущие инструменты на независимом тестовом наборе, более чем вдвое повысив ключевой показатель точности по сравнению со старыми методами. Используя реалистичные оценки редкости метилирования в клетках, авторы показывают, что модель сохраняет полезную точность даже в сложных условиях. Затем они применили MethylSight 2.0 ко всему рецензированному человеческому протеому и при консервативных порогах предсказали более 60 000 вероятных метилированных лизинов. Из них они выбрали 100 кандидатов для таргетных масс-спектрометрических экспериментов и обнаружили метилирование в 68 случаях, что свидетельствует о хорошем соответствии предсказаний модели лабораторной реальности.

Картирование растущего ландшафта контроля белков
Объединив обученные представления белков, продвинутую нейросеть и многозадачное обучение, авторы оценивают, что человеческий «лизин-метилом» может содержать примерно 155 000 сайтов — намного больше, чем считалось ранее. Их анализ показывает, что предсказанное метилирование особенно обогащено в белках, участвующих в трансляции, обработке РНК и в цитоскелете, что согласуется с ранними указаниями на то, что эти системы тесно регулируются химическими метками. Поскольку MethylSight 2.0 доступна как публичный веб‑сервис и как программное обеспечение для скачивания, исследователи теперь могут сканировать интересующие их белки, приоритизировать эксперименты и эффективнее искать метилирование, связанное с заболеваниями. В практическом плане эта работа даёт и более чёткую карту, и лучший компас для изучения того, как тонкие химические правки белков формируют здоровье и болезнь.
Цитирование: Charih, F., Boulter, M., Biggar, K.K. et al. Leveraging learned representations and multitask learning for lysine methylation site discovery. Sci Rep 16, 10212 (2026). https://doi.org/10.1038/s41598-026-39136-9
Ключевые слова: метилирование лизина, посттрансляционная модификация, языковые модели белков, глубокое обучение в протеомике, эпигенетика рака