Clear Sky Science · tr

Cerrahi video analizinde Segment Anything modeli için sistematik değerlendirme ve yönergeler

· Dizine geri dön

Ameliyathanedeki akıllı video araçlarının önemi

Modern cerrahi giderek daha fazla video ile yönlendiriliyor: küçük kameralar vücudun içine bakıyor ve cerrahlar hassas aletleri ekranda yönlendiriyor. Bu zengin ama dağınık videoları aletler ve dokuların net, etiketli haritalarına dönüştürmek operasyonları daha güvenli, eğitimleri daha etkili ve gelecekteki robotik yardımı daha güvenilir hale getirebilir. Bu çalışma, günlük videolar üzerinde eğitilmiş güçlü, genel amaçlı bir görsel sistemi alıyor ve basit ama önemli bir soruyu soruyor: bu sistem, pahalı tıbbi verilerle baştan yeniden eğitilmeden gerçek ameliyatlarda işe yarayacak kadar insan vücudunun inside görebiliyor mu?

Figure 1
Şekil 1.

Her sahneye uyarlanmış esnek bir görsel araç

Çalışmanın odağında, bir nesneyi araması için kendisine bir ipucu veya “prompt” verildiğinde videolarda nesneleri seçmek üzere tasarlanmış büyük bir yapay zeka sistemi olan Segment Anything Model 2 (SAM2) bulunuyor. Sabit kategoriler öğrenen geleneksel modellerin aksine, SAM2 sınıf-agnostiktir: kullanıcı bir noktayla, bir kutuyla veya örnek bir maske ile işaret ettiği sürece nesnenin köpek, araba ya da cerrahi bir tutucu olup olmadığı umurunda değildir. SAM2’deki önemli ilerlemelerden biri, bir nesnenin önceki karelerde nasıl göründüğünü hatırlayan ve bu hafızayı nesneyi zaman içinde takip etmek için kullanan bellek bankasıdır. Bu, aletlerin görünüp kaybolduğu ve dokuların sürekli deformasyona uğradığı cerrahi videolar için SAM2’yi özellikle umut verici kılar.

Birçok ameliyat türünde modeli teste sokmak

Yazarlar, laparoskopik safra kesesi çıkarımından robotik prostat cerrahisine ve endoskopiye kadar on yedi tür prosedürü kapsayan dokuz çeşitli veri kümesi üzerinde SAM2’yi geniş çaplı, sistematik bir şekilde değerlendiriyor. Üç ana zorluğu inceliyorlar: alet takibi, çoklu organ segmentasyonu ve aletlerle doku karışımını içeren sahnelerin anlaşılması. Her biri için modeli farklı şekillerde prompt ederek—tek noktalar, çoklu noktalar, sınır kutuları ve tam maskeler—test ediyor ve videonun akışı sırasında promptların ne sıklıkla yenilenmesi gerektiğini araştırıyorlar. Ayrıca, hazır model ile cerrahi görüntüler üzerinde hafifçe yeniden eğitmenin birkaç yolunu karşılaştırarak büyük yeni veri kümelerine ihtiyaç duymadan performansın ne kadar ileri taşınabileceğini değerlendiriyorlar.

Vücut içinde en iyi ne işe yarıyor

Genel olarak SAM2, bu alışılmadık ortamda şaşırtıcı derecede güçlü olduğunu kanıtlıyor. Cerrahi bir yeniden eğitim yapılmadan bile, özellikle sınır kutuları veya maskeler gibi zengin promptlar verildiğinde aletleri ve birçok organı uzman tıbbi modellerle rekabet edecek düzeyde segmentliyor. Her 30 karede bir promptları periyodik olarak “yeniden başlatmak”—esasen sisteme hangi şeyin nerede olduğunu hatırlatmak—uzun ve karmaşık kliplerde takibi büyük ölçüde iyileştiriyor. Araştırmacılar sadece promptları maskelere dönüştüren modül gibi SAM2’nin belirli bölümlerini ince ince ayarladıklarında, çoklu organ sahnelerindeki doğruluk önemli oranda artıyor ve eğitim gereksinimleri makul düzeyde kalıyor. Buna karşılık, sınırlı cerrahi veriyle tüm görüntü kodlayıcısını ayarlamaya çalışmak performansı gerçekten zayıflatabiliyor; bu da SAM2’nin genel görsel bilgisinin çoğunun olduğu gibi bırakılmasının daha iyi olduğunu gösteriyor.

Figure 2
Şekil 2.

Dağınık, hızlı değişen sahnelerdeki sınırlar

Çalışma ayrıca belirgin zayıf noktaları ortaya koyuyor. SAM2, kamera görüşü dar olduğunda, görüntü gürültülü ya da kötü aydınlatılmış olduğunda veya bazı endoskopik işlemlerde olduğu gibi dokular keskin sınırlara sahip olmadığında zorlanıyor. Kan damarları ve kanallar gibi ince dallanma yapıları üst üste geldiğinde veya benzer kaba kontura sahip olduğunda ayırmak güç oluyor. Video belleği kullanmak her zaman yardımcı olmuyor: hızlı kamera hareketiyle yüksek derecede dinamik sahnelerde zamansel ipuçları modeli stabilize etmek yerine yanlış yönlendirebiliyor. Bu bulgular, genel bir temel modelin çok ileri gidebileceğini gösterse de, bazı cerrahi gerçekliklerin hâlâ alan‑özgü ayarlama ve hareket ile görünüm değişimlerinin daha iyi ele alınmasını gerektirdiğini vurguluyor.

Geleceğin akıllı cerrahi sistemleri için yönergeler

Bu kapsamlı testten yola çıkarak yazarlar, SAM2’yi cerrahi projelerde kullanmak isteyen araştırmacılar ve klinisyenler için pratik tavsiyeler ortaya koyuyor. Mask veya kutu promptları ile başlamayı ve mask çözümleyiciye odaklanan basit, görüntü tabanlı ince ayarları önermekte; uzun videolar için periyodik prompt yenilemeleri eklemeyi ve sahneler nispeten durağanken daha karmaşık video tabanlı eğitimi araştırmayı tavsiye ediyorlar. Seyrek etiketlenmiş kliplerin—sadece bazı karelerin notlandığı veri setlerinin—modeli etkili biçimde uyarlamak için çoğu zaman yeterli olabileceğini gösteriyorlar. Düz ifadeyle, sonuç cesaret verici: tek bir, geniş çapta eğitilmiş görsel model birçok farklı cerrahi segmentasyon görevini üstlenebilir ve her prosedür için yeni bir araç oluşturma ihtiyacını önemli ölçüde azaltır. Düşünceli promptlama ve hafif özelleştirmeyle, SAM2 gibi sistemler cerrahi navigasyon, otomasyon ve eğitim araçlarının bir sonraki nesli için güçlü yapı taşları haline gelebilir.

Atıf: Yuan, C., Jiang, J., Yang, K. et al. Systematic evaluation and guidelines for segment anything model in surgical video analysis. npj Digit. Surg. 1, 2 (2026). https://doi.org/10.1038/s44484-025-00002-2

Anahtar kelimeler: cerrahi video analizi, görüntü segmentasyonu, temel modeller, bilgisayar destekli cerrahi, tıbbi yapay zeka