Clear Sky Science · pt

ROBUST-MIPS: Um Conjunto de Dados Combinado de Pose Esquelética e Segmentação por Instância para Instrumentos Cirúrgicos Laparoscópicos

· Voltar ao índice

Olhos Mais Inteligentes sobre Ferramentas Cirúrgicas

A cirurgia por chaveiro depende de instrumentos longos e finos guiados por câmeras dentro do corpo. Para que computadores auxiliem cirurgiões—rastreando ferramentas, alertando sobre zonas de risco ou mesmo controlando câmeras—é preciso primeiro saber com precisão onde cada instrumento está e como está orientado. Este artigo apresenta o ROBUST-MIPS, uma grande coleção de imagens cuidadosamente rotuladas que ensina algoritmos a seguir ferramentas cirúrgicas de forma mais eficiente e precisa, abrindo caminho para operações mais seguras e mais automatizadas.

Figure 1
Figure 1.

Por Que Seguir Ferramentas Dentro do Corpo É Difícil

Durante a cirurgia minimamente invasiva, a câmera mostra uma janela circular para uma cena congestionada e em movimento: tecido, sangue, fumaça, reflexos e vários instrumentos sobrepostos. Muitos grupos de pesquisa tentaram fazer computadores entenderem essas cenas marcando cada pixel que pertence a uma ferramenta, um processo chamado segmentação. Embora muito detalhadas, essas contornos pixel a pixel são lentos e cansativos para as pessoas desenharem, e nem sempre capturam a informação mais útil para saber onde uma ferramenta começa, dobra e termina. Retângulos simples, comuns na visão computacional do dia a dia, se saem mal aqui porque os instrumentos são longos e finos, então uma caixa ao redor deles cobre muita área irrelevante e se sobrepõe a outras ferramentas.

Uma Visão em Figura de Palitos dos Instrumentos Cirúrgicos

Os autores defendem um ponto de vista diferente: em vez de pintar cada pixel, descrevam cada instrumento como uma simples “figura de palitos” composta por alguns pontos-chave conectados por linhas retas. No conjunto de dados ROBUST-MIPS, cada ferramenta em cada imagem é rotulada com quatro posições padrão: onde ela entra no campo de visão da câmera (o ponto de entrada), onde o corpo encontra a ponta móvel ou rígida (a articulação/hinge) e até duas possíveis posições da ponta. Esse desenho funciona tanto para ferramentas rígidas, como sondas, quanto para as articuladas, como pinças e tesouras. Para ferramentas que têm apenas uma ponta, ou para aquelas cujas pontas se sobrepõem ou desaparecem da vista, o ponto extra é marcado como ausente, mas mantido no mesmo formato, de modo que algoritmos sempre encontrem uma estrutura consistente.

Lidando com Partes Ocultas e Ambíguas

Operações reais são bagunçadas, e partes de um instrumento frequentemente ficam ocultas atrás do tecido, fora da visão circular da câmera ou totalmente fora do quadro. Para lidar com isso, a equipe adiciona um rótulo de visibilidade a cada ponto-chave: claramente visível, oculto mas pode ser inferido com confiança, ou inteiramente desconhecido. Por exemplo, se apenas o cabo estiver visível, as posições das pontas são marcadas como ausentes; se uma ponta estiver atrás do tecido mas sua posição puder ser inferida pelo cabo visível e pela forma da ferramenta, ela é marcada como ocluída com coordenadas estimadas. Os autores até permitem que anotadores coloquem pontos pouco além da borda da imagem quando o instrumento obviamente continua fora do enquadramento, garantindo que a “figura de palitos” permaneça conectada mesmo quando apenas parte dela é visível.

Figure 2
Figure 2.

Construindo e Compartilhando um Rico Terreno de Treinamento

O ROBUST-MIPS foi construído sobre um conjunto de dados anterior amplamente usado chamado ROBUST-MIS, que contém 10.040 quadros de 30 cirurgias colorretais. Cada quadro já vinha com máscaras detalhadas das ferramentas; o novo trabalho adiciona os rótulos esqueléticos e limpa as máscaras removendo portas de câmera estáticas que não se movem e não ajudam no rastreamento de ferramentas. Cada quadro é empacotado com a imagem original, uma máscara refinada que inclui apenas as ferramentas ativas e um arquivo descrevendo os pontos-chave, sua visibilidade e como eles se conectam. Os autores convertem essa informação para um formato padrão popular, originalmente desenvolvido para pose humana, de modo que muitos algoritmos existentes possam usar os dados com trabalho extra mínimo.

Colocando o Conjunto de Dados à Prova

Para mostrar que essas anotações não são apenas interessantes no papel, a equipe treina vários modelos de ponta de estimativa de pose—originalmente projetados para rastrear articulações humanas—para seguir ferramentas cirúrgicas. Nesse cenário, cada ponto da ferramenta é tratado como uma articulação humana. Como as duas pontas de muitos instrumentos são intercambiáveis, os autores customizam o método de pontuação usual para tratar a troca das pontas como inofensiva, em vez de um erro. Eles também adaptam a forma de medir o tamanho para que ferramentas longas e finas sejam avaliadas de maneira justa, independentemente de como sejam rotacionadas na imagem. Ao longo de milhares de imagens não vistas, os modelos alcançam forte precisão, sugerindo que um punhado de pontos bem escolhidos é suficiente para localização confiável, mesmo na presença de fumaça, sangue, reflexos e instrumentos sobrepostos.

O Que Isto Significa para a Cirurgia do Futuro

O ROBUST-MIPS mostra que representar instrumentos cirúrgicos como contornos esqueléticos simples pode fornecer informação rica e prática a uma fração do custo de anotação de máscaras pixel a pixel. Ao liberar o conjunto de dados, o software de anotação personalizado e modelos de referência prontos para uso, os autores oferecem à comunidade uma base sólida para construir sistemas mais inteligentes que rastreiem ferramentas de forma robusta entre diferentes pacientes e procedimentos. A longo prazo, tais capacidades poderiam ajudar a viabilizar navegação mais segura, checagens de segurança em tempo real e automação mais intuitiva na sala de operação.

Citação: Han, Z., Budd, C., Zhang, G. et al. ROBUST-MIPS: A Combined Skeletal Pose and Instance Segmentation Dataset for Laparoscopic Surgical Instruments. Sci Data 13, 684 (2026). https://doi.org/10.1038/s41597-026-06938-5

Palavras-chave: rastreamento de ferramentas cirúrgicas, cirurgia laparoscópica, estimativa de pose, conjunto de dados de imagens médicas, cirurgia assistida por computador