Clear Sky Science · ru

scLong: модель-основа с миллиардами параметров для учёта дальнедействующего контекста генов в одно-клеточной транскриптомике

· Назад к списку

Обучение компьютеров «читать» скрытый язык клеток

Каждая клетка вашего организма — это оживлённый город генов, которые включаются и выключаются в сложных узорах. Современная одно-клеточная РНК-секвенирование теперь позволяет «подслушивать» каждую отдельную клетку, но результатом становится лавина числовых данных. В этой статье представлен scLong — крупная модель искусственного интеллекта, созданная для анализа этих сложных паттернов активности генов, включая слабые сигналы, которые старые методы обычно игнорируют. Её цель — помочь исследователям понять, как клетки реагируют на выключение генов, введение лекарств или развитие заболеваний.

Figure 1
Figure 1.

Почему важны картографии генов на уровне отдельных клеток

Традиционные генетические исследования часто смешивают миллионы клеток, усредняя редкие или необычные популяции. Одно-клеточные методы изменили ситуацию, измеряя активность генов в каждой клетке отдельно, что выявило скрытые типы клеток, тонкую клеточно-клеточную коммуникацию и подробные управляющие цепочки, определяющие поведение клетки. Однако анализ таких данных чрезвычайно сложен: для каждой клетки могут быть измерены уровни активности десятков тысяч генов, многие из которых едва обнаружимы. Существующие модели ИИ упрощают задачу, фокусируясь только на самых «громких» генах — это ускоряет расчёты, но упускает многие тонкие сигналы, которые могут иметь ключевое значение при заболеваниях, развитии или ответе на лекарства.

Новая модель, которая слушает каждый ген

scLong решает эту задачу путем масштабирования, а не сокращения. Это модель-основа с миллиардами параметров, обученная на профилях активности генов примерно 48 миллионов человеческих клеток из более чем 50 тканей. В отличие от прежних подходов, которые учитывают лишь несколько тысяч высокоактивных генов, scLong рассматривает порядка 28 000 генов одновременно, включая редко или слабо экспрессируемые. Она объединяет два вида информации для каждого гена: уровень его активности в данной клетке и уже известную о нём функциональную информацию из Gene Ontology — большого экспертно курируемого каталога ролей и отношений генов. Специализированная сеть, работающая на графе связей между генами, сводит эти априорные знания в компактные представления, которые модель использует наряду с сырыми значениями экспрессии.

Как модель сочетает мощность и эффективность

Детальный анализ всех генов требует больших вычислительных ресурсов, поэтому scLong использует хитрую двухпотоковую архитектуру. В каждой клетке гены сортируются по уровню экспрессии. Самые активные гены, которые часто несут основной биологический сигнал, обрабатываются более крупным и мощным модулем внимания. Тихие гены, включая низкие и даже нулевые измерения, направляются через меньший, лёгкий модуль. Затем все гены объединяются и пропускаются через ещё один слой внимания, который позволяет каждому гену влиять на каждый другой. Такая схема позволяет сохранять более дешёвые, но значимые представления для слабых сигналов, одновременно резервируя большую вычислительную ёмкость для самых сильных. Во время предобучения система многократно скрывает подмножество значений активности генов и учится восстанавливать их из окружающего контекста, что заставляет модель обнаруживать закономерности, связывающие гены между собой.

Figure 2
Figure 2.

Применение модели к реальным задачам

После обучения scLong можно адаптировать к широкому кругу биологических задач. Авторы показывают, что модель прогнозирует изменение активности генов при выключении или изменении отдельных генов, включая комбинации двух генов, которые могут действовать совместно. Она также предсказывает, как клетки реагируют на воздействие различных химических веществ, что важно для открытия и проверки безопасности лекарств. В онкологических исследованиях scLong помогает предсказать реакцию линий опухолевых клеток на одиночные препараты и на пары препаратов, которые в сочетании могут работать лучше, часто превосходя как специализированные модели, так и другие крупные модели-основы. Помимо предсказаний, scLong может восстанавливать сети регуляторных связей между генами и корректировать технические искажения, возникающие при сборе данных в разных лабораториях или на разных приборах.

Что это значит для медицины и науки будущего

Проще говоря, scLong даёт учёным карту активности генов внутри отдельных клеток с высоким разрешением и учётом контекста, не отбрасывая тихие или редко используемые гены. Обучаясь на миллионах клеток и интегрируя существующие биологические знания, модель предлагает более точные предсказания того, как клетки будут реагировать на нарушения генов, введение новых лекарств или развитие болезненных процессов. Это может ускорить поиск новых терапий, помочь в выборе более персонализированных схем лечения и улучшить наше понимание того, как сложные генетические сети управляют здоровьем и болезнью. Хотя модель велика и требует значительных вычислительных ресурсов, она указывает на будущее, где мощные универсальные ИИ-системы станут ценными инструментами для изучения скрытых процессов в клетках.

Цитирование: Bai, D., Mo, S., Zhang, R. et al. scLong: a billion-parameter foundation model for capturing long-range gene context in single-cell transcriptomics. Nat Commun 17, 2380 (2026). https://doi.org/10.1038/s41467-026-69102-y

Ключевые слова: одно-клеточная транскриптомика, модели-основы, регуляция генов, прогноз ответа на лекарственные препараты, экспрессия генов