Clear Sky Science · ru

Фундаментальная модель для интеллектуальной хирургии, обученная на масштабных самоконтролируемых видеоданных

2026-02-04 · Назад к списку

Более умная помощь в операционной

Современные хирурги всё чаще полагаются на камеры и компьютеры во время работы, но существующий искусственный интеллект пока не в состоянии полностью понять, что происходит в ходе операции. В этой статье предложен новый способ обучения ИИ на тысячах хирургических видеозаписей, чтобы он лучше отслеживал этапы процедуры, распознавал инструменты и ткани и оценивал, насколько безопасно и профессионально проходит операция. В перспективе такие технологии могут поддерживать хирургов в реальном времени, улучшать обучение и повышать безопасность операций для пациентов.

Почему обучать машины хирургии сложно

Обучить компьютер понимать хирургию — это не то же самое, что показать ему несколько размеченных снимков. В каждой операции камеры движутся, меняются ракурсы, появляются дым, кровь, а руки и инструменты постоянно заслоняют друг друга. К тому же существует тысячи разных видов вмешательств, многие из которых редки. Тщательная покадровая разметка видео требует дорогостоящего времени экспертов и быстро становится непрактичной. Ранние ИИ‑системы пытались снизить эту нагрузку трюками, которые учатся на немаркированных изображениях, но такие подходы в основном опирались на статические кадры и лишь позднее пытались учитывать временной аспект. В результате они часто упускали разворачивающуюся «историю» операции: что было раньше, что происходит сейчас и что, вероятно, будет дальше.

Обучение напрямую по хирургическим фильмам

Авторы утверждают, что ИИ, предназначенный для помощи в хирургии, должен обучаться на видеозаписях, а не на разрозненных изображениях. Для этого они собрали одну из крупнейших на сегодня коллекций эндоскопических видеозаписей: 3650 записей с общим объёмом 3,55 миллиона кадров, взятых из публичных исследовательских наборов данных и широкого набора онлайн‑материалов. Эти видео охватывают более 20 видов процедур и более 10 анатомических областей — от удаления желчного пузыря до операций на печени и гинекологических вмешательств. Такое разнообразие даёт модели представление о многих вариантах того, как процедура может выглядеть в реальности: разные больницы, инструменты и стили съёмки.

Новая схема обучения, ориентированная на видео

Опираясь на этот массив данных, команда разработала SurgVISTA — «фундаментальную модель», специально настроенную на работу с хирургическими видеоматериалами. Вместо меток для каждого кадра SurgVISTA учится восстанавливать пропущенные фрагменты. Во время тренировки части видеоклипа скрываются, и модель должна реконструировать отсутствующие области. Это заставляет её обращать внимание на то, как ткани, инструменты и движения меняются со временем. Одновременно вторая ветвь системы обучается сопоставлять детальные визуальные признаки, которые предоставляет мощная экспертная модель для изображений, уже обладающая большим опытом распознавания хирургических сцен. Такое сочетание помогает SurgVISTA улавливать как тонкие детали внутри каждого кадра, так и более широкий ход всей операции — в рамках единой, согласованной сети.

Проверка модели в деле

Чтобы оценить эффективность подхода, авторы протестировали SurgVISTA на 13 разных наборах данных, охватывающих шесть типов хирургии и четыре практические задачи. Сюда входили распознавание фазы операции, идентификация конкретных хирургических действий, фиксация трёхсторонней связи между инструментом, действием и целевой тканью, а также оценка того, насколько безопасно выполнены ключевые этапы. Во всех испытаниях SurgVISTA превзошла ведущие модели, обученные на бытовых видео, а также лучшие существующие хирургически ориентированные системы, основанные главным образом на статичных изображениях. Модель показала высокие результаты даже на процедурах, которых не было в обучающей выборке, что говорит о том, что выученные ею закономерности не привязаны к одному органу, набору инструментов или конкретной клинике.

Почему важны большие и разнообразные видеоданные

Исследование также проанализировало, как меняется качество при увеличении объёма обучающих данных. По мере постепенного расширения размера и разнообразия видеопула результаты SurgVISTA улучшались практически во всех задачах, включая процедуры, полностью отсутствовавшие в обучающей выборке. Примечательно, что модель выиграла не только от дополнительной демонстрации одних и тех же операций, но и от разнообразия: знакомство с разными хирургическими «сюжетами» помогло ей выявлять общие визуальные и движенческие паттерны, переносимые между специальностями. Дополнительные эксперименты показали, что направляющее влияние экспертной модели для изображений дополнительно усиливало способность SurgVISTA сохранять тонкие анатомические детали, что критично для отличения жизненно важных структур от окружающих тканей.

Что это значит для будущей хирургии

Проще говоря, работа демонстрирует, что ИИ, обученный на больших объёмах реальных хирургических видео с учётом пространства и времени, может сформировать гораздо более глубокое понимание происходящего в операционной. SurgVISTA пока не является инструментом, который самостоятельно принимает решения, но она предоставляет мощную основу, к которой можно подключать различные приложения — для отслеживания хода операции, выявления рискованных моментов, поддержки обучения или сопоставления техник между клиниками. Авторы отмечают, что необходимы более широкие наборы данных и клинические испытания, но их результаты позволяют предположить, что видео‑ориентированные фундаментальные модели могут стать ключевым компонентом будущих интеллектуальных хирургических систем, направленных на повышение безопасности, согласованности и индивидуализации процедур для каждого пациента.

Цитирование: Yang, S., Zhou, F., Mayer, L. et al. Large-scale self-supervised video foundation model for intelligent surgery. npj Digit. Med. 9, 220 (2026). https://doi.org/10.1038/s41746-026-02403-0

Ключевые слова: ИИ для хирургических видео, самоконтролируемое обучение, оперативный рабочий процесс, компьютерно‑ассистированная хирургия, пространственно‑временное моделирование