Clear Sky Science · pt
Modelo de base de vídeo em grande escala auto-supervisionado para cirurgia inteligente
Ajuda Mais Inteligente na Sala de Operações
Cirurgiões modernos dependem cada vez mais de câmeras e computadores para orientar seu trabalho, mas a inteligência artificial atual ainda tem dificuldade para compreender plenamente o que ocorre durante uma operação. Este artigo apresenta uma nova maneira de treinar IA com milhares de vídeos cirúrgicos para que ela acompanhe melhor os passos de um procedimento, reconheça instrumentos e tecidos e avalie quão segura e habilidosa está a execução da cirurgia. A longo prazo, esse tipo de tecnologia poderia apoiar cirurgiões em tempo real, melhorar o treinamento e ajudar a tornar a cirurgia mais segura para os pacientes.

Por que Ensinar Máquinas Sobre Cirurgia é Difícil
Ensinar computadores a entender cirurgia não é tão simples quanto alimentá-los com algumas imagens rotuladas. Cada procedimento envolve câmeras em movimento, mudanças de ponto de vista, fumaça, sangue e mãos e instrumentos que se sobrepõem constantemente. Além disso, existem milhares de tipos diferentes de operações, muitas das quais são raras. Rotular cuidadosamente dados de vídeo quadro a quadro exige tempo de especialistas, um recurso escasso, e rapidamente se torna muito caro. Sistemas de IA anteriores tentaram aliviar esse ônus com artifícios que aprendem a partir de imagens não rotuladas, mas em geral analisavam quadros estáticos e só depois tentavam incorporar uma noção de tempo. Como resultado, frequentemente perdiam a narrativa em desenvolvimento de uma operação: o que ocorreu antes, o que está acontecendo agora e o que provavelmente acontecerá em seguida.
Aprendendo Diretamente com Filmes Cirúrgicos
Os autores defendem que uma IA destinada a auxiliar em cirurgia deve ser treinada com vídeos em vez de imagens isoladas. Para isso, eles reuniram uma das maiores coleções de vídeos endoscópicos de cirurgia até hoje: 3.650 gravações com 3,55 milhões de quadros, extraídas de conjuntos de dados públicos de pesquisa e de uma ampla varredura de material cirúrgico disponível online. Esses vídeos abrangem mais de 20 tipos de procedimentos e mais de 10 regiões anatômicas, desde remoção da vesícula até cirurgia hepática e operações ginecológicas. Essa diversidade permite que a IA observe muitas maneiras pelas quais um procedimento pode parecer na vida real, incluindo diferentes hospitais, instrumentos e estilos de câmera.
Um Novo Roteiro de Aprendizado Focado em Vídeo
Aproveitando esse tesouro de dados, a equipe projetou o SurgVISTA, um "modelo de base" ajustado especificamente para vídeos cirúrgicos. Em vez de tentar rotular cada quadro, o SurgVISTA aprende preenchendo o que está faltando. Durante o treinamento, partes de cada clipe de vídeo são ocultadas, e o modelo deve reconstruir as regiões ausentes. Isso o obriga a prestar atenção em como tecidos, instrumentos e movimentos mudam ao longo do tempo. Ao mesmo tempo, um segundo ramo do sistema é treinado para compatibilizar os sinais visuais detalhados capturados por um forte modelo especialista baseado em imagens, que já conhece muito sobre cenas cirúrgicas. Essa combinação ajuda o SurgVISTA a apreender tanto os detalhes finos dentro de cada quadro quanto o fluxo mais amplo de toda a operação, tudo dentro de uma única rede unificada.

Testando o Modelo
Para avaliar se essa abordagem realmente compensa, os autores testaram o SurgVISTA em 13 conjuntos de dados diferentes envolvendo seis tipos de cirurgia e quatro tarefas práticas. Essas tarefas incluíam reconhecer em qual fase da operação se encontrava, identificar ações cirúrgicas específicas, capturar a relação tripartite entre instrumento, ação e tecido alvo, e julgar quão seguramente etapas-chave foram executadas. De modo geral, o SurgVISTA superou modelos de ponta treinados em vídeos do cotidiano, bem como os melhores sistemas focados em cirurgia existentes, que eram baseados sobretudo em imagens estáticas. Desempenhou-se de forma sólida mesmo em procedimentos que nunca havia visto durante o treinamento, mostrando que os padrões aprendidos não estavam atrelados a um único órgão, conjunto de instrumentos ou hospital.
Por que Mais e Melhores Dados de Vídeo Importam
O estudo também investigou como o desempenho mudava conforme mais dados de treinamento eram adicionados. À medida que os autores expandiram gradualmente o tamanho e a variedade do acervo de vídeos, os resultados do SurgVISTA melhoraram quase em todos os aspectos, inclusive em procedimentos que não constavam no conjunto de treinamento. Curiosamente, o modelo se beneficiou não apenas de mais exemplos do mesmo procedimento, mas também de diferentes tipos de cirurgias: a exposição a diversas "histórias" cirúrgicas ajudou-o a identificar padrões visuais e de movimento gerais que se transferem entre especialidades. Experimentos adicionais mostraram que a orientação extra do especialista baseado em imagens aprimorou ainda mais a capacidade do modelo de preservar detalhes anatômicos finos, crucial para distinguir, por exemplo, uma estrutura vital do tecido ao redor.
O Que Isso Significa para a Cirurgia do Futuro
Em termos simples, este trabalho mostra que uma IA treinada com grandes quantidades de vídeo cirúrgico real, considerando tanto o espaço quanto o tempo, pode construir uma compreensão muito mais profunda do que acontece na sala de operações. O SurgVISTA ainda não é uma ferramenta que tome decisões por conta própria, mas fornece uma espinha dorsal poderosa na qual outras aplicações podem se apoiar — seja para acompanhar o progresso cirúrgico, sinalizar momentos de risco, apoiar o treinamento ou comparar técnicas entre hospitais. Os autores observam que são necessários dados mais amplos e testes clínicos, mas seus resultados sugerem que modelos de base baseados em vídeo podem se tornar um ingrediente-chave em futuros sistemas cirúrgicos inteligentes destinados a tornar os procedimentos mais seguros, mais consistentes e melhor adaptados a cada paciente.
Citação: Yang, S., Zhou, F., Mayer, L. et al. Large-scale self-supervised video foundation model for intelligent surgery. npj Digit. Med. 9, 220 (2026). https://doi.org/10.1038/s41746-026-02403-0
Palavras-chave: vídeo cirúrgico AI, aprendizado auto-supervisionado, fluxo operatório, cirurgia assistida por computador, modelagem espaço-temporal