Clear Sky Science · tr
Büyük ölçekli kendi kendine denetimsiz video temel modeli ile akıllı cerrahi
Ameliyathanede Daha Akıllı Destek
Modern cerrahlar işlerini yönlendirmek için giderek daha fazla kamera ve bilgisayara güveniyor, ancak günümüz yapay zekâsı hâlâ bir ameliyat sırasında neler olduğunu tam olarak kavramakta zorlanıyor. Bu makale, binlerce cerrahi video üzerinde AI’yı eğitmenin yeni bir yolunu sunuyor; böylece bir prosedürün adımlarını daha iyi takip edebiliyor, aletleri ve dokuları tanıyabiliyor ve operasyonun ne kadar güvenli ve becerikli ilerlediğini değerlendirebiliyor. Uzun vadede bu tür bir teknoloji, cerrahlara gerçek zamanlı destek sağlayabilir, eğitimi iyileştirebilir ve hastalar için cerrahiyi daha güvenli hâle getirebilir.

Makinelere Cerrahiyi Öğretmek Neden Zor
Bilgisayarlara cerrahiyi öğretmek birkaç etiketli resim vermek kadar basit değil. Her prosedür hareketli kameralar, değişen bakış açıları, duman, kan ve birbirini sürekli kapatan eller ile aletler içerir. Bunun üzerinde binlerce farklı operasyon türü vardır; birçoğu nadirdir. Video verilerini kare kare dikkatle etiketlemek uzman zamanına ihtiyaç duyar ve hızla çok maliyetli olur. Önceki AI sistemleri bu yükü, etiketlenmemiş görüntülerden öğrenen hilelerle hafifletmeye çalıştı, ancak bunlar çoğunlukla durağan karelere baktı ve zaman duygusunu sonradan eklemeye çalıştı. Sonuç olarak, genelde bir operasyonun açığa çıkan öyküsünü kaçırdılar: öncesinde ne olduğu, şu anda ne olduğu ve bir sonraki adımın ne olma olasılığı.
Cerrahi Filmlerden Doğrudan Öğrenme
Yazarlar, cerrahide yardımcı olmak amaçlı bir AI’nın izole görüntüler yerine videolar üzerinde eğitilmesi gerektiğini savunuyor. Bunu yapmak için şimdiye kadar toplanan en büyük endoskopik cerrahi video koleksiyonlarından birini derlediler: 3.650 kayıt ve 3,55 milyon kare, halka açık araştırma veri setleri ve çevrimiçi cerrahi görüntülerin geniş bir taramasından alınmış. Bu videolar safra kesesi alma işlemlerinden karaciğer cerrahisine ve jinekolojik operasyonlara kadar 20’den fazla prosedür türünü ve 10’dan fazla anatomik bölgeyi kapsıyor. Bu çeşitlilik, AI’nın farklı hastanelerde, farklı aletlerle ve farklı kamera stillerinde bir prosedürün gerçekte nasıl görünebileceğini görmesini sağlıyor.
Videoya Odaklı Yeni Bir Öğrenme Planı
Bu veri hazinesinin üzerine ekip, özellikle cerrahi videolar için ayarlanmış bir “temel model” olan SurgVISTA’yı tasarladı. Her kareyi etiketlemeye çalışmak yerine, SurgVISTA eksik olanı doldurarak öğreniyor. Eğitim sırasında her video klibin parçaları gizleniyor ve modelin eksik bölgeleri yeniden oluşturması gerekiyor. Bu, dokuların, aletlerin ve hareketlerin zaman içinde nasıl değiştiğine dikkat etmesini zorunlu kılıyor. Aynı zamanda sistemin ikinci bir dalı, cerrahi sahneler hakkında zaten çok şey bilen güçlü bir görüntü tabanlı uzman modelin sağladığı ayrıntılı görsel ipuçlarıyla eşleştirilmek üzere eğitiliyor. Bu bileşim, SurgVISTA’nın hem her kare içindeki ince detayları hem de tüm operasyonun daha geniş akışını tek, birleşik bir ağ içinde kavramasına yardımcı oluyor.

Modeli Test Etmek
Bu yaklaşımın gerçekten işe yarayıp yaramadığını görmek için yazarlar SurgVISTA’yı altı cerrahi türünü ve dört pratik görevi içeren 13 farklı veri setinde test etti. Bu görevler arasında bir operasyonun hangi aşamasında olunduğunu tanıma, belirli cerrahi eylemleri tespit etme, alet–eylem–hedef doku arasındaki üçlü ilişkiyi yakalama ve ana adımların ne kadar güvenli gerçekleştirildiğini değerlendirme yer aldı. Genel olarak, SurgVISTA günlük videolar üzerinde eğitilmiş önde gelen modellerin yanı sıra çoğunlukla durağan görüntülere dayanan en iyi mevcut cerrahi odaklı sistemleri geride bıraktı. Hatta eğitim sırasında hiç görmediği prosedürlerde bile iyi performans gösterdi; bu da öğrendiği desenlerin tek bir organ, alet seti veya hastaneyle sınırlı olmadığını gösteriyor.
Neden Daha Fazla ve Daha Zengin Video Verisi Önemli
Çalışma ayrıca eğitim verisi arttıkça performansın nasıl değiştiğini inceledi. Yazarlar video havuzunun boyutunu ve çeşitliliğini kademeli olarak genişlettikçe, SurgVISTA’nın sonuçları neredeyse her alanda iyileşti; hatta eğitim setinde hiç yer almayan prosedürlerde bile. İlginç şekilde model sadece aynı operasyonun daha fazla örneğinden değil, farklı cerrahi türlerinden de fayda sağladı: değişen cerrahi “öykülere” maruz kalmak, uzmanlık alanları arasında aktarılan genel görsel ve hareket desenlerini fark etmesine yardımcı oldu. Ek deneyler, görüntü tabanlı uzmanın sağladığı ek rehberliğin modelin ince anatomik detayı koruma yeteneğini daha da keskinleştirdiğini gösterdi; bu, örneğin hayati bir yapıyı çevre dokuya göre ayırt etmek için kritik önemde.
Geleceğin Cerrahisi İçin Ne Anlama Geliyor
Sade bir ifadeyle, bu çalışma, mekân ve zamanı göz önünde bulundurarak büyük miktarda gerçek cerrahi videosu üzerinde eğitilmiş bir AI’nın ameliyathanede olanları çok daha derin şekilde anlayabileceğini gösteriyor. SurgVISTA henüz kendi başına karar veren bir araç değil, ancak cerrahi ilerlemeyi izlemek, riskli anları işaretlemek, eğitimi desteklemek veya hastaneler arası teknikleri karşılaştırmak gibi uygulamaların bağlanabileceği güçlü bir omurga sağlıyor. Yazarlar daha geniş veri ve klinik testlerin hâlâ gerekli olduğunu belirtiyor, ancak elde ettikleri sonuçlar, video tabanlı temel modellerin gelecekteki akıllı cerrahi sistemlerinin daha güvenli, daha tutarlı ve her hasta için daha iyi uyarlanmış olmasına katkıda bulunabilecek temel bir bileşen hâline gelebileceğini düşündürüyor.
Atıf: Yang, S., Zhou, F., Mayer, L. et al. Large-scale self-supervised video foundation model for intelligent surgery. npj Digit. Med. 9, 220 (2026). https://doi.org/10.1038/s41746-026-02403-0
Anahtar kelimeler: cerrahi video yapay zekası, kendi kendine denetimli öğrenme, operatif iş akışı, bilgisayar destekli cerrahi, uzay-zaman modelleme