Clear Sky Science · ru
Частично совместные многоформатные эмбеддинги учат целостное представление состояния клетки
Почему это исследование важно
Каждая клетка в нашем организме — это крошечная вселенная, и современные методы позволяют наблюдать эту вселенную сразу с нескольких сторон: читать гены, картировать упаковку ДНК или визуализировать белки. Тем не менее большинство вычислительных подходов смешивают эти представления таким образом, что трудно понять, какое измерение отвечает за то или иное наблюдение. В этой статье представлен APOLLO — новый способ объединения разнородных данных о клетках, который отслеживает, что общее между измерениями, а что уникально для каждого, предоставляя более ясную и целостную картину поведения клетки.
Видеть клетки через множество линз
Сегодня биология рутинно измеряет несколько типов информации в одной и той же клетке: какие гены включены, насколько плотно упакована ДНК, какие белки находятся на поверхности или где внутри клетки локализуются отдельные белки. Каждая «модальность» фиксирует лишь часть истинного состояния клетки. Некоторые аспекты, например широкий тип клетки, проявляются во всех модальностях, тогда как другие — например точная упаковка хроматина или локализация конкретного белка — могут быть видны только в одной. Существующие вычислительные методы либо анализируют каждую модальность отдельно, либо сливают их в единое смешанное представление. В обоих случаях учёным сложно понять, какие признаки происходят из какого измерения, и предсказать, что бы показало отсутствующее измерение.

Новая карта общих и уникальных сигналов
APOLLO решает эту проблему, обучая структурированную внутреннюю карту для каждой клетки. Вместо одного недифференцированного сводного вектора он разделяет информацию на три части: общий компонент, отражающий то, что разделяют разные измерения, и по одному компоненту, специфичному для каждой модальности, фиксирующему уникальное для данного типа данных. Под капотом APOLLO использует семейство нейросетей, называемых автоэнкодерами. На первом этапе обучения внутренняя репрезентация каждой клетки рассматривается как набор настраиваемых параметров и настраивается совместно с декодерами так, чтобы каждая модальность могло быть реконструирована точно. На втором этапе обучаются энкодеры, которые могут восстанавливать эти же внутренние представления по новым данным, что позволяет методу обобщать на невидимые клетки и выполнять предсказания между модальностями.
Тестирование метода на моделированных и реальных данных
Авторы сначала проверяют APOLLO на тщательнопроектированных моделированных наборах данных, где известна истинная скрытая структура. В нескольких сценариях, включая случаи, когда общие и модально-специфические факторы статистически запутаны, APOLLO успешно разделяет их по предназначенным компонентам. Затем метод применяют к парным данным экспрессии генов и доступности хроматина из кожи мыши, к данным, связывающим экспрессию генов с уровнями белков на поверхности в иммунных клетках, и к высокопараметрическим изображениям клеток. В этих реальных наборах данных общее пространство фиксирует ключевые биологические темы, такие как главные регуляторы, определяющие тип клетки, в то время как пространства, специфичные для модальности, подчёркивают дополнительные слои, например состояние клеточного цикла или пакетные эффекты, уникальные для одного измерения.
Предсказание отсутствующих изображений и выявление структуры клетки
Одно из впечатляющих приложений использует изображения иммунных клеток пациентов с раком. Здесь у каждой клетки есть ДНК-окраска и одна или несколько белковых меток, но не все белки измеряются в каждой клетке. APOLLO обучается, как шаблоны в организации хроматина соотносятся с локализацией белков и затем может предсказать, как будет выглядеть нишний белок в данной клетке, исходя только из её изображения хроматина. Эти предсказанные изображения белков достаточно реалистичны, что отдельный классификатор, обученный различать диагноз пациента, работает с ними почти так же хорошо, как и с реальными изображениями. В другом большом ресурсе изображений, Атласе белков человека, APOLLO разъединяет вклад формы ядра, сети микротрубочек и эндоплазматического ретикулума в то, где внутри клетки находятся белки. Для одних белков наибольшую информативность даёт вариация текстуры ядра; для других — признаки окружающего клеточного каркаса.

Более чёткое представление идентичности клетки
Для неспециалиста ключевая мысль такова: APOLLO позволяет учёным объединять множество разных измерений одних и тех же клеток, не теряя при этом контроля над тем, какое измерение что объясняет. Явно разделяя общую и модально-специфическую информацию, метод может как предсказывать недостающие данные — например не измеренные изображения белков — так и выделять, какой клеточный компонент или тип данных действительно связан с данной фенотипической характеристикой, например состоянием болезни или релокализацией белка. Эта возможность формировать структурированное, интерпретируемое резюме для каждой клетки закладывает основу для более точной диагностики и более глубокого механистического понимания того, как разные уровни биологии взаимодействуют друг с другом.
Цитирование: Zhang, X., Shivashankar, G.V. & Uhler, C. Partially shared multi-modal embedding learns holistic representation of cell state. Nat Comput Sci 6, 285–300 (2026). https://doi.org/10.1038/s43588-025-00948-w
Ключевые слова: мультиомика одиночных клеток, обучение представлений, состояние клетки, локализация белков, изображения хроматина