Clear Sky Science · ar
تقييم منهجي وإرشادات لنموذج "قطع أي شيء" في تحليل فيديو العمليات الجراحية
لماذا أدوات الفيديو الذكية مهمة في غرفة العمليات
الجراحة الحديثة تعتمد بشكل متزايد على الفيديو: كاميرات صغيرة تُطل داخل الجسم بينما يتنقل الجراحون بأدوات حساسة على شاشة. تحويل هذه الفيديوهات الغنية لكن الفوضوية إلى خرائط واضحة وموصوفة للأدوات والأنسجة يمكن أن يجعل العمليات أكثر أمانًا، والتدريب أكثر فعالية، ويسهل موثوقية المساعدة الروبوتية في المستقبل. تطرح هذه الدراسة نظام رؤية عام وقوي جديد، درب في الأصل على فيديوهات يومية، سؤالاً بسيطًا لكن مهمًا: هل يمكنه «الرؤية» بشكل كافٍ داخل جسم الإنسان ليكون مفيدًا في الجراحة الحقيقية—دون إعادة تدريب كاملة على بيانات طبية مكلفة؟ 
أداة رؤية مرنة مصممة لأي مشهد
تركز الدراسة على نموذج Segment Anything 2 (SAM2)، نظام ذكاء اصطناعي كبير مصمم لاستخلاص الأجسام في الفيديو متى ما مُنح تلميحًا أو "مؤشرًا" عما يبحث عنه. خلافًا للنماذج التقليدية التي تتعلّم فئات ثابتة، فإن SAM2 لا يميّز بين الفئات: لا يهتم بما إذا كان الجسم كلبًا أو سيارة أو ملقط جراحي، طالما أن المستخدم يشير إليه بنقطة أو مربع أو قناع مثال. من التقدّمات الرئيسة في SAM2 بنك الذاكرة الخاص به، الذي يتذكر شكل الجسم في إطارات سابقة ويستخدم تلك الذاكرة لمتابعته عبر الزمن. هذا يجعل SAM2 واعدًا بشكل خاص لفيديوهات العمليات، حيث تتحرك الأدوات داخل وخارج مجال الرؤية وتتشوه الأنسجة باستمرار.
اختبار النموذج عبر العديد من العمليات
أجرى المؤلفون تقييماً واسع النطاق ومنهجيًا لـ SAM2 على تسع مجموعات بيانات متنوعة تغطي سبعة عشر نوعًا من الإجراءات، من استئصال المرارة بالمنظار إلى جراحة البروستاتا الروبوتية والتنظير الداخلي. فحصوا ثلاث تحديات رئيسة: تتبُّع الأدوات، تقسيم أعضاء متعددة، وفهم المشاهد التي تمزج بين الأدوات والأنسجة. لكل حالة، اختبروا طرقًا مختلفة لتقديم التلميحات للنموذج—نقاط مفردة، نقاط متعددة، مربعات محيطة، وأقنعة كاملة—واستكشفوا عدد مرات الحاجة لتحديث التلميحات أثناء تقدم الفيديو. كما قارنوا النموذج الجاهز مع عدة طرق لإعادة تدريبه بشكل خفيف على صور جراحية لمعرفة مدى تحسين الأداء دون الحاجة إلى مجموعات بيانات ضخمة جديدة.
ما الذي يعمل بشكل أفضل داخل الجسم
عمومًا، أثبت SAM2 قوة مفاجِئة في هذا البيئة غير المألوفة. دون أي إعادة تدريب جراحية، يقوم بتقسيم الأدوات والعديد من الأعضاء بشكل تنافسي مقارنةً بنماذج طبية متخصصة، خصوصًا عندما يُعطى تلميحات غنية مثل المربعات المحيطة أو الأقنعة. إن "إعادة تهيئة" التلميحات بشكل دوري كل 30 إطارًا—بمعنى تذكير النظام بما يوجد وأين—يحسّن التتبُّع كثيرًا في المقاطع الطويلة والمعقّدة. عندما يقوم الباحثون بتعديل أجزاء محددة فقط من SAM2، مثل الوحدة التي تحول التلميحات إلى أقنعة، يرتفع دقته في مشاهد الأعضاء المتعددة مع إبقاء متطلبات التدريب متواضعة. في المقابل، محاولة تعديل مُشفر الصورة بأكمله ببيانات جراحية محدودة قد تضر بالأداء فعليًا، مما يشير إلى أنه من الأفضل ترك معظم المعرفة البصرية العامة في SAM2 دون مساس. 
حدود في المشاهد الفوضوية والمتغيرة بسرعة
تكشف الدراسة أيضًا عن نقاط ضعف واضحة. يكافح SAM2 عندما يكون مجال الرؤية ضيقًا، أو الصورة صاخبة أو مضاءة بشكل سيئ، أو عندما تفتقر الأنسجة إلى حدود حادة، كما في بعض إجراءات التنظير. الهياكل الرفيعة المتفرعة مثل الأوعية الدموية والقنوات صعبة الفصم عندما تتداخل أو تشترك في نفس المحيط الخارجي. استخدام ذاكرة الفيديو لا يساعد دائمًا: في المشاهد الديناميكية جدًا مع حركة كاميرا سريعة، قد تضلل الإشارات الزمنية النموذج بدلًا من أن تثبته. تؤكد هذه النتائج أنه، رغم أن نموذجًا أساسيًا عامًا يمكنه أن يقطع شوطًا كبيرًا، إلا أن بعض واقعيات الجراحة تتطلب ضبطًا مخصصًا للمجال ومعالجة أفضل للحركة وتغيرات المظهر.
إرشادات لأنظمة الجراحة الذكية المستقبلية
من هذا الاختبار الواسع، يستخلص المؤلفون نصائح عملية للباحثين والأطباء الذين يرغبون في استخدام SAM2 في مشاريع جراحية. يوصون بالبدء بتلميحات على شكل أقنعة أو مربعات وضبط بسيط قائم على الصورة يركز على فك تشفير الأقنعة، إضافة تحديثات دورية للتلميحات للفيديوهات الطويلة، واستكشاف التدريب القائم على الفيديو فقط عندما تكون المشاهد مستقرة نسبيًا. يوضحون أن المقاطع المعلّمة بشكل متفرق—حيث تُعلَّم بعض الإطارات فقط—قد تكفي لتكييف النموذج بفعالية. بكلمات بسيطة، الخلاصة مشجعة: يمكن لنموذج رؤية واحد مُدرّب على نطاق واسع أن يتعامل مع العديد من مهام تقسيم الصور الجراحية، ما يقلل بشكل كبير الحاجة لبناء أداة جديدة لكل إجراء. مع تلميح مدروس وتخصيص خفيف، يمكن لأنظمة مثل SAM2 أن تصبح لبنات بناء قوية للجيل القادم من أدوات التنقل الجراحي، والأتمتة، والتدريب.
الاستشهاد: Yuan, C., Jiang, J., Yang, K. et al. Systematic evaluation and guidelines for segment anything model in surgical video analysis. npj Digit. Surg. 1, 2 (2026). https://doi.org/10.1038/s44484-025-00002-2
الكلمات المفتاحية: تحليل فيديو جراحي, تقسيم الصور, نماذج أساسية, جراحة بمساعدة الحاسوب, الذكاء الاصطناعي الطبي