Clear Sky Science · ru

DECODE: универсальная рамочная система деконволюции на основе глубокого обучения для различных омics-данных

· Назад к списку

Почему это исследование важно

Современная биомедицина изобилует измерениями наших тканей: какие гены активны, какие белки присутствуют и какие малые молекулы питают клетки. Однако большинство таких измерений выполняют на составных образцах, где смешано множество типов клеток. Исследование, лежащее в основе DECODE, представляет мощную систему искусственного интеллекта, которая умеет «размешивать» эти сигналы, указывая, какие клетки и в каких состояниях присутствуют, даже в самых разных типах данных. Эта способность может ускорить исследования рака, иммунитета и метаболических заболеваний и больше использовать имеющиеся образцы биобанков.

Figure 1
Figure 1.

Заглянуть внутрь смешанных тканей

Каждый орган — это сообщество разных типов клеток: иммунных, структурных, стволовых и других. В здоровье и болезни часто меняется не только функция отдельных клеток, но и число каждого типа и их состояния. Одноклеточные технологии измеряют отдельные клетки напрямую, но они дорогие и технически сложные, особенно для больших когорт пациентов или старых хранимых образцов. Напротив, обычные «бульковые» эксперименты смешивают тысячи или миллионы клеток и регистрируют усреднённый сигнал. Алгоритмы деконволюции пытаются обратить этот процесс: имея бульковые данные и справочную карту одноклеточных данных, они оценивают долю каждого типа клеток в ткани.

Ограничения однофункциональных инструментов

Существующие инструменты деконволюции в основном ориентированы на один вид измерений, например активность генов (транскриптомика) или белки (протеомика). Они часто предполагают специфические статистические свойства, которые не выполняются для других типов данных, и испытывают трудности, когда в бульковой ткани есть типы клеток, отсутствующие в референсных данных. Сильные батч-эффекты — различия между донорами, инструментами или состояниями здоровья — дополнительно размывают биологические сигналы. Особенно отсутствовал практичный метод для метаболомики — изучения малых молекул, часто наиболее близких к клиническим симптомам. В результате учёным, анализировавшим мультиомные когорты, приходилось пользоваться несколькими специализированными инструментами с их собственными особенностями, что затрудняло сравнение результатов между исследованиями и типами данных.

Универсальный движок для размешивания

DECODE решает эти задачи, рассматривая деконволюцию как гибкую задачу глубокого обучения, способную обрабатывать гены, белки и метаболиты в единой рамке. Сначала он синтезирует «псевдоткани», цифровым образом смешивая одноклеточные профили в случайных пропорциях, создавая богатый обучающий набор, где истинный состав клеток известен. Этап состязательного обучения затем учит кодировщик отображать реальные ткани и псевдоткани в общее представление, где технические различия минимизированы, но биологически значимые паттерны сохранены. Далее специальный модуль денойзинга, направляемый контрастивным обучением, учится отделять истинные тканевые сигналы от искусственного шума. Этот шаг делает DECODE устойчивым к отсутствующим типам клеток в референсе и к ошибкам измерений. Наконец, очищенные признаки передаются модулю деконволюции, который оценивает либо абсолютную, либо относительную долю типов клеток и их состояний, в зависимости от полноты референса.

Figure 2
Figure 2.

Проверка DECODE

Авторы скрупулёзно протестировали DECODE на 15 наборах данных, охватывающих семь реалистичных сценариев, включая разные донорские выборки, состояния заболевания, условия здоровья, экспериментальные платформы и даже пространственно разрешённые измерения. В транскриптомике и протеомике DECODE в целом сопоставим или превосходит современные методы по точности, при этом поддерживая разумное время вычислений и использование памяти. Критично, DECODE оказался единственным методом, дающим надёжные результаты для метаболомики, где признаков меньше и разные типы клеток могут выглядеть обманчиво схожими. Рамка также показала способность отслеживать состояния клеток — например прогрессию вдоль траекторий развития, фазы клеточного цикла или ответы на лечение — а не только статические типы клеток.

Устойчивость к шумным и неполным данным из реального мира

В реальных тканях часто встречаются типы клеток, не захваченные лабораторными одноклеточными референсами, а экспериментальный шум может исказить множество признаков одновременно. Исследователи смоделировали эти проблемы, добавив неизвестные типы клеток и введя различные виды шума и пропусков данных в транскриптомике, протеомике и метаболомике. В большинстве сценариев DECODE оставался самым точным методом, а в метаболомике — единственным, который не давал сбоев. Они также продемонстрировали, что DECODE даёт высоко согласованные результаты при применении к сопоставленным измерениям генов и белков из одних и тех же образцов кровяных клеток, что является ключевым требованием для сравнения изменений типов клеток между слоями омics в крупных когортах.

Новые биологические выводы из мультиомных когорт

Оснащённые этим унифицированным инструментом, авторы пересмотрели сложные наборы данных по заболеваниям. В раке молочной железы они сопоставили транскриптомные и протеомные когорты, чтобы показать, как иммунные клетки и поддерживающие стромальные клетки меняются между неметастатическими опухолями, метастазирующими первичными опухолями и метастазами в мозге. Паттерны, такие как большая доля Т-клеток и периваскуляроподобных клеток в неметастатических очагах и увеличение числа В-клеток при развитом заболевании, согласуются с предыдущими биологическими исследованиями и расширяют их. В печени мыши DECODE интегрировал транскриптомные, протеомные и метаболомные когорты, чтобы отследить, как гепатоциты, эндотелиальные клетки и резидентные иммунные клетки меняются при разных диетах и моделях заболеваний печени, воспроизводя известные тенденции, например рост доли клеток Купфера при воспалительных состояниях.

Что это значит в будущем

Для непрофессионального читателя главный вывод в том, что DECODE работает как умная призма для биомедицинских данных: имея смешанные измерения тканей, он может выделить вклад многих типов клеток и их состояний и делает это надёжно для нескольких видов молекулярных считываний. Это позволяет учёным извлечь гораздо больше информации из существующих мультиомных когорт и биобанков без необходимости собирать новые одноклеточные данные для каждого проекта. Хотя метод по‑прежнему зависит от качества и охвата доступных одноклеточных референсов, а ресурсы по метаболомике остаются ограниченными, DECODE отмечает значительный шаг в сторону рутинной интерпретации на клеточном уровне крупных исследований человека с потенциальной пользой для понимания механизмов заболеваний и направления персонализированной медицины.

Цитирование: Zhao, T., Liu, R., Sun, Y. et al. DECODE: deep learning-based common deconvolution framework for various omics data. Nat Methods 23, 596–608 (2026). https://doi.org/10.1038/s41592-026-03007-y

Ключевые слова: де-конволюция мультиомики, одноклеточная справка, глубокое обучение в биологии, анализ метаболомики, состав типов клеток