Clear Sky Science · ru
IL2Pepscan: рамочная система машинного обучения для предсказания пептидов, индуцирующих IL-2, и их выявления в протеомах вирусов по всему миру
Обучение иммунной системы с помощью крошечных фрагментов белков
Современные вакцины и противораковые терапии всё чаще полагаются на точную модуляцию иммунной системы вместо «ковровой» атаки лекарствами. В этом исследовании изучают, как маленькие фрагменты белков — пептиды — можно отобрать так, чтобы они включали мощный иммунный медиатор интерлейкин‑2 (IL‑2). Используя продвинутые вычислительные модели, авторы просматривают как известные иммуно‑данные, так и каталоги белков тысяч вирусов, чтобы найти молекулярные «иголки в стоге сена» — пептиды, которые могут помочь в разработке лучших вакцин и иммунотерапий.
Почему IL-2 важен для здоровья и болезни
IL‑2 — это маленькая сигнальная молекула, действующая как фактор роста для ключевых иммунных клеток, известных как T‑лимфоциты. Когда эти клетки впервые сталкиваются с угрозой — например, вирусом или раковой клеткой — они могут выделять IL‑2, который затем стимулирует размножение T‑клеток, их специализацию и формирование иммунологической памяти. IL‑2 также поддерживает регуляторные T‑клетки, предотвращающие атаку иммунитета на собственные ткани организма. Из‑за этой двойственной роли IL‑2 использовали как лекарство при раке, например меланоме, и исследуют при аутоиммунных заболеваниях. Но прямое введение IL‑2 может быть тяжёлым для пациентов, поэтому растёт интерес к созданию безопасных пептидов, которые побуждают организм вырабатывать IL‑2 более контролируемым и целевым образом.

Выявление «почерка» пептидов, индуцирующих IL-2
Исследователи начали с тысяч пептидных последовательностей, которые уже были протестированы в лабораторных экспериментах и помечены как индуцирующие IL‑2 или неиндуцирующие. Они очистили набор данных, удалив дубликаты, необычные строительные блоки и пептиды слишком короткой или слишком длинной длины, в результате получив более 6000 хорошо охарактеризованных примеров. Анализируя аминокислотный состав этих пептидов, авторы обнаружили чёткие различия между двумя группами. Пептиды, индуцирующие IL‑2, как правило, были богаче гидрофобными (водоотталкивающими) аминокислотами, такими как лейцин и аланин, тогда как неиндуцирующие пептиды склонялись к более полярным и заряженным остаткам. Некоторые короткие паттерны или мотивы, например «LEGS» и «ALEG», встречались только в индуцирующих IL‑2 пептидах, что указывает на структурные сигнатуры, которые могут способствовать активации иммунитета.
Обучение машин распознавать иммунно‑усиливающие шаблоны
Чтобы превратить эти шаблоны в практический инструмент предсказания, команда преобразовала каждый пептид в численные описания, отражающие его состав и порядок аминокислот. Они протестировали ряд методов машинного обучения — включая популярные алгоритмы, такие как случайные леса, опорные векторы и бустинг — а также глубокие нейронные архитектуры, часто используемые для задач языка и изображений. Авторы также использовали крупную «языковую» модель белков ProtBERT, первоначально обученную на сотнях миллионов белковых последовательностей, и дообучили её для лучшего распознавания сигналов, связанных с IL‑2. После обширного тестирования методом кросс‑валидации и на независимом тестовом наборе лучшим оказался модельный подход Extra Trees в сочетании с набором признаков, известным как DDE (отклонение дипептида от ожидаемого среднего). Эта модель достигла около 80% точности и высокой корреляции, превзойдя несколько подходов глубокого обучения.

Сканирование вирусного мира в поисках скрытых иммунных триггеров
Вооружившись своей лучшей моделью, авторы расширили поиск. Они собрали референсные белковые последовательности более чем 14 000 вирусов, разрезали эти белки на примерно 156 миллионов перекрывающихся пептидов и попросили модель предсказать, какие из них могут индуцировать IL‑2. Среди кандидатов с наивысшими оценками оказались пептиды из известных семейств вирусов, включая флавивирусы (вирус Западного Нила, Зика, жёлтой лихорадки и вирус гепатита C), а также из вирусов гриппа и SARS‑CoV‑2. Многие перспективные пептиды происходили из белков оболочки или нуклеокапсида — тех же типов белков, которые в других исследованиях показали способность вызывать реакции IL‑2 в животных. Модель также отметила потенциальные IL‑2‑индуцирующие пептиды, закодированные бактериофагами — вирусами, инфицирующими бактерии, — что намекает на ещё более широкую картину иммунологически значимых последовательностей.
От алгоритма к доступному инструменту
Чтобы сделать результаты полезными за пределами вычислительной лаборатории, авторы создали публичный веб‑сервер IL2Pepscan. Исследователи могут вставлять пептидные или белковые последовательности на сайте, чтобы оценить их потенциал индуцировать IL‑2, проектировать новые варианты путём мутаций позиций, сканировать целые белки в поисках «горячих точек» или искать известные мотивы, связанные с IL‑2. Хотя в исследовании ещё не подтверждены экспериментально все предсказанные пептиды, согласованность с существующими лабораторными данными указывает на то, что IL2Pepscan может надёжно сузить круг кандидатов для дальнейшего тестирования. Для неспециалистов главный вывод таков: тщательно обученные алгоритмы способны просеивать огромные биологические наборы данных, чтобы выделять небольшие фрагменты белков, которые когда‑то могут помочь вакцинам и иммунотерапиям побудить иммунную систему к более мощному — и более точному — ответу.
Цитирование: Arora, P., Abhigyan, R., Periwal, N. et al. IL2Pepscan: A machine learning framework for predicting IL-2 inducing peptides and their identification across global viral proteomes. Sci Rep 16, 6701 (2026). https://doi.org/10.1038/s41598-026-35977-6
Ключевые слова: интерлейкин-2, пептидные вакцины, машинное обучение, вирусный протеом, иммунотерапия