Clear Sky Science · ru
Улучшенная деконволюция с управляемым вниманием позволяет оценивать типы клеток в пространственной транскриптомике без эталона
Видеть клетки на месте
Современная биология может одновременно считывать активность тысяч генов не только в одиночных клетках, но и прямо в тонких срезах тканей. Этот «пространственный транскриптомный» взгляд показывает, где располагаются и взаимодействуют разные клетки, но каждое измерение часто представляет собой смесь сигналов от многих соседних клеток. В работе представлено новое вычислительное решение под названием AGED, которое способно распутывать такие смеси и оценивать, какие типы клеток где присутствуют — без необходимости в отдельном, тщательно подобранном наборе одно-клеточных эталонов. 
Почему картирование клеток в тканях сложно
Платформы пространственной транскриптомики измеряют активность генов по сетке точек, наложенной на срез ткани. Поскольку большинство точек захватывают одновременно несколько клеток, исследователям приходится математически разлагать смешанные сигналы, чтобы восстановить фоновые типы клеток и их доли. Существующие инструменты часто опираются на внешние одно-клеточные референс-атласы той же ткани. Такие атласы могут отсутствовать для редких тканей, специфических патологических состояний или необычных экспериментальных условий, а даже при наличии они могут не совпадать идеально, внося искажения. Методы без эталона избегают этой зависимости, но текущие подходы испытывают трудности со сложными пространственными паттернами, тонкими генными взаимосвязями и задачей выбора числа различных типов клеток, которые необходимо искать в первую очередь.
Двухэтапная стратегия для распутывания смесей
Авторы разработали AGED как двухэтапную рамочную схему, объединяющую идеи статистики и современных методов глубокого обучения. На первом этапе метод проверяет ряд вариантов того, сколько типов клеток может присутствовать в ткани. Используется быстрый нейронный сетевой механизм внимания, известный как Performer, чтобы научиться кандидатурам разложений, а затем оценить их по нескольким критериям одновременно: насколько хорошо модель восстанавливает наблюдаемые счёты генов, насколько ясно выделяются предполагаемые группы клеток и насколько разнообразны эти группы. Процедура аппроксимации кривой находит «точку локтя», где добавление дополнительных типов клеток приносит мало выгоды, позволяя методу автоматически выбрать подходящее число вместо того, чтобы полагаться на догадку пользователя.
Управляемое внимание для учёта биологии
После определения числа типов клеток второй этап AGED уточняет решение с помощью более богатой архитектуры на основе внимания. Он начинается со статистической тематической модели, которая рассматривает каждую точку ткани как смесь скрытых «тем» — здесь они выступают в роли типов клеток — а каждый тип клеток определяется характерным генным паттерном. Эти начальные темы задают глобальную структуру. Затем модель накладывает несколько механизмов внимания: один связывает статистические темы с нейросетью, другой аккумулирует информацию от соседних точек в физическом пространстве, а третий напрямую связывает темы с генами. Система затворов позволяет модели решать в каждом конкретном случае, насколько доверять априорным статистическим паттернам по сравнению с локальными данными. Дополнительные ограничения поощряют разреженные решения, что отражает биологическую реальность: в большинстве участков ткани доминируют лишь несколько основных типов клеток. 
Проверка метода
Исследователи оценили AGED на нескольких типах данных. В смоделированной ткани обонятельной луковицы мыши метод восстановил четыре известных анатомических слоя и точнее соответствовал истинным составам клеток по сравнению с широко используемыми инструментами как на основе эталонов, так и без них, достигая высокой корреляции с эталоном и низкой ошибки реконструкции. В образцах человеческой аденокарциномы панкреатических протоков AGED автоматически выбрал решение с двадцатью типами клеток, которое согласовалось с регионами, аннотированными патологами (опухоль, проток и нормальная поджелудочная железа), превосходя другие методы по показателю структурного сходства, сравнивающему выведённые карты с видимой тканевой структурой. В ткани человеческого тимуса AGED точно разделил ключевые популяции клеток и уловил биологически ожидаемую отрицательную зависимость между двумя специализированными эпителиальными типами — паттерн, который конкурентные подходы не смогли воспроизвести. Дополнительные анализы на других наборах данных и на разрешении, близком к одно-клеточному, далее подтвердили устойчивость метода.
Что это означает в будущем
Для неспециалиста AGED можно рассматривать как интеллектуальный механизм размешивания для сложных тканей: он определяет, сколько отдельных клеточных сообществ присутствует, где они находятся и какие гены их характеризуют — всё это на основе только пространственных данных. Сочетая интерпретируемые статистические модели с гибкими нейросетями на основе внимания, рамочная схема обеспечивает и точность, и понимание, даже когда подходящего референс-атласа нет. Это делает её практичным инструментом для исследования организации тканей в здоровье и болезни — от слоёв мозга до опухолей и иммунных органов — и указывает на более широкий подход к использованию априорных знаний для управления мощными, но непрозрачными моделями машинного обучения в биологии.
Цитирование: Yang, X., Wang, Y. & Chen, X. Attention-guided enhanced deconvolution enables reference-free cell type estimation in spatial transcriptomics. Sci Rep 16, 8097 (2026). https://doi.org/10.1038/s41598-026-39703-0
Ключевые слова: пространственная транскриптомика, деконволюция типов клеток, глубокое обучение, архитектура ткани, анализ без эталона