Clear Sky Science · ru

Мультимодальная модель встраивания для представления данных при сепсисе

· Назад к списку

Почему это важно для пациентов с тяжёлыми инфекциями

Сепсис — это быстро прогрессирующая и часто смертельная реакция на инфекцию, и врачам приходится принимать решения, от которых зависит жизнь пациента, опираясь на нечёткие и неполные данные больницы. В этом исследовании предложен новый способ преобразования всего, что известно в больнице о пациенте с сепсисом — числовых результатов лабораторий и свободных текстов из врачебных и радиологических отчётов — в единый, насыщенный цифровой портрет. Этот портрет затем можно повторно использовать для группировки пациентов по биологически значимым кластерам и для предсказания, кто находится в наибольшем риске смерти, даже когда доступно лишь небольшое размеченное обучающее множество.

Figure 1
Figure 1.

Более точная картина сепсиса из смешанных больничных данных

Исследователи создали Модель представления данных при сепсисе, SepsisDRM, используя записи 19 526 пациентов с сепсисом, лечившихся в Гуандунской провинциальной больнице традиционной китайской медицины и её филиалах. Каждый пациент представил два типа информации. Во-первых, структурированные записи, такие как возраст, сопутствующие заболевания, оценки органной недостаточности и 31 рутинное лабораторное измерение — маркеры воспаления, свертывания крови, функции печени и почек и липидный профиль. Во-вторых, неструктурированные текстовые источники, включая результаты микробиологических посевов и заключения радиологов по КТ. Вместо того чтобы обрабатывать эти потоки по отдельности, SepsisDRM пропускает табличные данные через нейросеть, оптимизированную для чисел, а текст — через современную языковую модель, затем объединяя оба вида в общее представление для каждого пациента.

Обучение без меток для выявления скрытых типов пациентов

Чтобы избежать необходимости в больших объёмах экспертной разметки, SepsisDRM использует подход контрастивного обучения. Модель генерирует слегка разные «виды» одной и той же записи пациента и учится сближать эти виды в своём внутреннем пространстве, одновременно отталкивая записи других пациентов. После обучения каждый пациент представляется в этом пространстве одной точкой. Команда затем применила кластеризацию и обнаружила, что четыре группы наилучшим образом отражают структуру данных: группа с выраженным воспалением, группа с низким уровнем воспаления, промежуточная группа и группа множественной органной недостаточности. Эти кластеры чётко различались по лабораторным результатам, тяжести хронических заболеваний и показателям внутрибольничной смертности: худшие исходы были в группе множественной органной недостаточности, а лучшие — в группе с низким воспалением.

Связь цифровых групп с реальными ответами на лечение

Авторы пошли дальше простого описания и спросили, могут ли эти сформированные на данных группы информировать терапию. Они изучили применение Сюэбицзина (Xuebijing) — инъекции на основе традиционной китайской медицины, широко используемой в Китае как дополнение к лечению сепсиса. Тщательно сопоставив леченых и нелеченых пациентов по возрасту, органной недостаточности и сопутствующим заболеваниям, исследователи сравнили показатели смертности в каждой фенотипической группе. В общей популяции пациентов с сепсисом и в трёх из четырёх групп Сюэбицзин явно не показал преимущества. Но в группе с высоким воспалением пациенты, получавшие препарат, существенно реже умирали в больнице по сравнению с сопоставимыми пациентами, не получавшими его, что указывает на то, что это лечение может быть наиболее полезно для определённого биологического подтипа, а не для всех больных с сепсисом.

Figure 2
Figure 2.

Прогнозирование 28‑дневной выживаемости при небольшом числе размеченных случаев

Поскольку SepsisDRM уже кодирует детальный портрет каждого пациента, команда могла натренировать простой классификатор поверх этих представлений, чтобы предсказывать, будет ли пациент жив через 28 дней после поступления. Используя лишь небольшие размеченные наборы данных, модель достигла высокой точности: площади под ROC-кривой 0,83 и 0,82 на ретроспективных и проспективных тестах из той же больницы и 0,69 на внешней больнице с другими практиками и стилем документации. В очном сравнении на проспективной когорте SepsisDRM показал большую чувствительность и большую согласованность по сравнению с 11 врачами разного уровня — он пропускал меньше пациентов, которые впоследствии умерли, при этом сохраняя высокий уровень корректных «безопасных» классификаций.

Что это значит для будущего ухода за пациентами с сепсисом

Проще говоря, эта работа демонстрирует, что единое, многократно используемое цифровое представление пациентов с сепсисом — построенное совместно на основе лабораторных чисел и свободных текстов — может одновременно выявлять значимые подтипы заболевания и обеспечивать точные инструменты прогнозирования исходов. SepsisDRM не заменяет клиницистов, но может служить вспомогательным инструментом: отмечать пациентов высокого риска, указывать, кто может получить выгоду от специфических методов лечения, таких как Сюэбицзин, и делать это даже в условиях ограниченного объёма размеченных данных. Та же стратегия может быть адаптирована к другим состояниям, где в больницах собирают сочетание структурированных измерений и нарративных отчётов, открывая путь к более точной и основанной на данных интенсивной терапии.

Цитирование: Liu, T., Li, Y., Chen, H. et al. A multimodal embedding model for sepsis data representation. npj Digit. Med. 9, 272 (2026). https://doi.org/10.1038/s41746-026-02446-3

Ключевые слова: фенотипы сепсиса, мультимодальные встраивания, клиническое прогнозирование, ИИ в реанимации, стратификация лечения