Clear Sky Science · zh

MSRCTNet：一种用于无线胶囊内镜视频高效冗余帧去除的新型多尺度胶囊三元网络

2026-02-02 · 返回目录

吞下一台相机，却淹没在图像中

设想通过吞下一颗维生素大小的相机来诊断肠道疾病，它能悄然拍摄整个消化道的照片。无线胶囊内镜已经实现了这一点，但每次检查大约产生55,000张图像，其中大多数几乎一模一样。医生必须在这片视觉洪流中筛查，以发现微小的出血、炎症或肿瘤。本研究提出了一个简单但关键的问题：能否让智能系统安全地丢弃那些看起来相同的帧，从而让临床医生只看到真正重要的内容？

为什么太多图片会成为问题

传统内镜需要通过口腔或直肠插入一根可弯曲的管子，这一过程令许多患者感到不适，且无法总是到达整个小肠。胶囊内镜通过让胶囊相机随肠道漂流、每秒拍照来解决这一问题。其缺点是信息过载：只有约1%的帧包含明确有用的信息，其余大多重复了相同的组织皱襞。审阅如此大量图像既缓慢又疲惫，增加了疲劳的临床医生可能错过细微病变的风险。早期的计算方法试图通过聚类相似帧、压缩数据或依赖简单的颜色和纹理线索来帮忙，但在光照变化、肠道复杂运动或罕见异常仅出现极少样本时，这些方法常常失效。

一种更智能的重复识别方法

MSRCTNet（多尺度胶囊三元网络）是一种旨在作为胶囊视频智能过滤器的深度学习系统。该系统并不将每帧视为平面图像，而是同时观察多个尺度上的模式——从肠黏膜的细微纹理到肠壁的更大形状—并使用注意力机制强调最有信息量的细节。这些增强特征随后被传入胶囊风格的层，以保留图像各部分在空间上的相互关系，例如皱襞或病变的朝向和排列。最后，一个专门的相似性模块对三元帧进行比较——一张参考图、一张应相似的图和一张应不同的图——以学习一种表示，使得真正冗余的帧紧密聚类，而有区别性的帧彼此分离。

从真实病人检查中学习

为测试MSRCTNet，研究者汇集了来自中国一所医院60例胶囊检查的257,362张图像。图像包含正常组织、被气泡遮挡的区域以及明确的异常（如出血和炎症），均由有经验的临床医生标注。系统被训练来判断一对帧是否相似，使用了两种学习目标的组合：一种将同一类别的帧拉近并将不同类别的帧推远，另一种直接教网络判断一对帧是否相似。训练完成后，模型以三帧为一组审阅视频并决定相邻图像中哪些是真正冗余的。通过对这些相似性决策应用简单规则，它舍弃重复视图，同时保留具有代表性的关键帧。

速度、准确性与更少的漏检

在测试数据上，MSRCTNet在约96%的情况下正确处理了帧冗余，误报率低于3%，漏帧率低于0.2%。在实际应用中，对于一次50,000帧的检查，这意味着漏掉的潜在相关帧少于100帧——周围的图像以每秒六帧提供了足够的上下文。与几种基于聚类、运动分析或更简单神经网络的早期技术相比，MSRCTNet在数据不平衡（即正常图像远多于罕见病变）时既更准确也更稳健。该系统运行速度也很快：每帧约0.02秒，或将一次完整检查缩减到大约2,500张关键帧，供人工审阅的量更加可控。

这对患者与医生意味着什么

对患者而言，论文中描述的进展不会改变他们吞下的胶囊，但可能使检查更为高效。通过在不依赖人工调参阈值或脆弱启发式规则的情况下自动剪除近重复图像，MSRCTNet使临床医生能够将注意力集中在一组简洁且信息丰富的肠道旅程摘要上。该方法在保留临床重要发现的同时减少了疲劳和阅读耗时，可能使无创胶囊检查更具吸引力并更广泛使用。本质上，这一方法将图片洪流转化为精心策划的精彩集锦，使人工智能的承诺更接近日常消化道疾病护理。

引用: Li, Q., Wang, S., Cheng, Z. et al. MSRCTNet: a novel multi-scale capsule triplet network for efficient redundant frame removal in wireless capsule endoscopy videos. Sci Rep 16, 6902 (2026). https://doi.org/10.1038/s41598-026-37669-7

关键词: 无线胶囊内镜, 医学视频摘要, 深度学习, 冗余帧去除, 胃肠成像