Clear Sky Science · ru

Интеграция, выравнивание и аннотация одно-клеточных данных РНК-секвенирования между видами с помощью CAMEX

· Назад к списку

Почему это исследование важно

Тело любого животного состоит из множества типов клеток, однако у нас по-прежнему нет чёткой карты того, как эти клетки соотносятся между видами и как они менялись в ходе эволюции. В этой работе представлена CAMEX — вычислительный инструмент, который объединяет данные о генетической активности отдельных клеток из разных животных в общее представление. Для неспециалиста это важно тем, что приближает нас к ответам на вопросы о том, какие типы клеток действительно универсальны, какие уникальны для человека и как формировались такие органы, как мозг, печень и тестис, в ходе эволюции.

Figure 1
Figure 1.

Рассматривая клетки по одной

Современное одно-клеточное РНК-секвенирование позволяет учёным определить, какие гены активны в тысячах и даже миллионах отдельных клеток в одном эксперименте. Сравнивая эти паттерны, исследователи могут группировать клетки по типам и отслеживать их развитие. Подобных наборов данных сейчас много для человека, обезьян, мышей, рыб, рептилий и других. Однако разные исследования часто используют разные экспериментальные технологии, а виды различаются по наборам генов. Кроме того, знания о генах распределены неравномерно: хорошо изученные лабораторные виды аннотированы гораздо лучше, чем редкие виды. Эти различия действуют как «эффекты партии» и неполные словари, что затрудняет сопоставление сходных клеток между видами и определение того, какие признаки действительно общие, а какие — специфичны для конкретного вида.

Графовый способ связать виды

CAMEX преодолевает эти препятствия, преобразуя все данные в одну большую сеть, которая включает и клетки, и гены. В этой сети клетки связаны с экспрессируемыми ими генами, с ближайшими по сходству соседними клетками, а гены между видами соединяются, если по эволюционным данным считаются связанными — даже когда эта связь является многие-ко-многим, а не простой один-к-одному. Специализированный тип машинного обучения — гетерогенная графовая нейронная сеть — затем передаёт информацию по этим связям и обучается компактным «встраиваниям» (embeddings) для каждой клетки и каждого гена в общем низкоразмерном пространстве. Для интеграции данных модель обучается реконструировать как структуру сети, так и исходные паттерны активности генов, не получая заранее разметки типов клеток. Для аннотации клеток тот же энкодер подключается к классификатору на основе механизма внимания, который может переносить известные метки из референсного вида на менее изученные.

Выявление общих типов клеток и развития

Авторы демонстрируют, что CAMEX превосходит ряд популярных инструментов при работе со сложными наборами реальных данных. На данных по печени, яичнику и поджелудочной железе, охватывающих до четырёх видов и несколько экспериментальных платформ, CAMEX лучше уравновешивал две конкурирующие цели: устранение искусственных «пакетных» различий при сохранении истинных биологических различий между типами клеток. Он точно выравнивал общие популяции клеток, такие как гепатоциты и клетки иммунной системы, и, что важно, сохранял редкие типы клеток, которые другие методы часто размывали. В драматичном тесте CAMEX интегрировал данные по тестису из 11 видов — от приматов до платипуса и курицы. Модель восстановила непрерывный путь созревания герминативных клеток в сперматозоиды и показала, что использование многие-ко-многим отношений между генами критично для поддержания качества по мере увеличения удалённости видов. Модель также успешно выровняла стадии развития органов у семи видов, расширяя идею классических карнегианских стадий развития за пределы малого набора модельных организмов, для которых они изначально определялись.

Figure 2
Figure 2.

Поиск видов-специфичных клеток и модулей генов

Поскольку CAMEX формирует встраивания как для клеток, так и для генов, он может выделять не только общие, но и особые характеристики. В наборах данных по мозгу, включавших человека, мышь, ящерицу и черепаху, CAMEX интегрировал данные и, опираясь на разметку человека как ориентир, корректно аннотировал типы клеток в других видах, в том числе небольшие подгруппы, например перициты мозга у черепахи. Применение метода к детализированной карте дорсолатеральной префронтальной коры приматов позволило авторам выделить специфические подтипы микроглии — иммунных клеток мозга — которые присутствуют только у человека или общие с шимпанзе. Кластеризация встраиваний генов выявила также группы генов, связанные с ключевыми функциями: например, модули, активные в соматических поддерживающих клетках тестиса, и другие, связанные с мейозом — процессом клеточного деления, производящим сперматозоиды. Эти результаты указывают как на консервативные программы, так и на видовоспецифические модификации в поведении клеток.

Что это значит в более широком контексте

Проще говоря, CAMEX — мощный новый «переводчик» для одно-клеточных данных по всему древу жизни. Он помогает учёным увидеть, когда клетки разных животных выполняют по сути одну и ту же функцию, когда они разошлись, и как сопоставляются временные линии развития между видами. Хотя метод всё ещё имеет ограничения — например, опора на существующие карты гомологий и общие сложности интерпретации графовых моделей — он уже позволяет проводить более содержательные эволюционные сравнения, чем было возможно раньше. Со временем такие инструменты, как CAMEX, могут помочь построить подлинное «дерево типов клеток», уточнить наши модели развития органов и нацелить поиск клеток и мишеней, релевантных для заболеваний, как у человека, так и в модельных организмах.

Цитирование: Guo, ZH., Huang, DS. & Zhang, S. Multi-species integration, alignment and annotation of single-cell RNA-seq data with CAMEX. Nat Commun 17, 3017 (2026). https://doi.org/10.1038/s41467-026-69696-3

Ключевые слова: одно-клеточное РНК-секвенирование, межвидовая интеграция, графовые нейронные сети, эволюция типов клеток, сравнительная геномика