Clear Sky Science · zh

POLAR-DETR:用于全实验室自动化的极化遮挡感知局部-全局注意实时检测变换器

· 返回目录

为拥挤的医学实验室打造更聪明的机器人

每一项血液检测背后,都是一条繁忙的生产线,试管托架穿过扫描仪和机器人快速移动。随着医院朝着全自动化实验室迈进,这些生产线必须在实时条件下识别成千上万根紧密排列、外观相似的试管,即便它们相互重叠或部分遮挡。本文提出了 POLAR‑DETR,一种为实验室机器人在这类杂乱、狭小环境中实现可靠视觉感知而设计的新系统,为更快、更安全、更准确的检测打开了道路。

为什么识别试管这么难

现代实验室越来越多地使用机器来搬运和分拣样本,但这些流水线周围的空间十分有限。实验室不再使用长长的传送带,而是转向更紧凑的机器人系统,强烈依赖摄像头。这些摄像头必须在物体尺寸小、排列密集且常被部分遮挡的场景中识别每根试管、每个托架和载具。其他行业常用的快速检测器(如 YOLO 系列)在这些条件下开始表现不佳:它们依赖额外的决策步骤来过滤重叠预测,容易漏检微小或被遮挡的目标,而在处理医疗样本时,这类错误是不可接受的。

为实验室量身打造的新视觉引擎

作者基于近期在变换器视觉模型上的进展,专门为医疗生产线设计了 POLAR‑DETR。它摒弃了多道手工调优的处理链,采用端到端设计,一次性将相机图像直接转换为试管的位置和类别,避免了常见的额外过滤阶段。其核心是一种新的特征编码器,特别关注物体在空间上的相互关系及其相互遮挡。通过重塑模型扫描图像的方式,编码器能帮助模型聚焦于正确区域,既保留微小试管的细节,又理解更广的场景。这使系统在试管重叠、簇集或尺寸差异大时更具鲁棒性。

Figure 1
Figure 1.

融合细节与全局视野

要理解拥挤场景,视觉系统必须在试管边缘的微小细节和托架、载具的整体布局之间取得平衡。POLAR‑DETR 通过两个互补的融合模块来应对这一挑战。一个模块在多个尺度和位置间连接信息,将一组图像区域视为灵活的关联体而非简单网格。这有助于系统识别出例如微弱的试管边缘更可能属于邻近试管群而非背景。第二个模块明确将处理拆分为“局部”分支(强化纹理和边界)和“全局”分支(跟踪长距离模式)。随后将两者的结果重组,产生更清晰的目标边界并减少试管与周围设备的混淆。

为现实速度精简网络

高精度的视觉模型往往体积大、运行慢,而这对可能全天候运行的工业设备来说是个问题。作者提出了一种剪枝策略,分析每条内部通路对模型输出的贡献强度。那些贡献较小的通路会被有依据地移除,而不是随机或按简单规模规则剔除。该选择性精简将参数量削减约五分之一、计算量减少近四分之一,但模型的准确率反而提高。在他们的医疗生产线数据集上,POLAR‑DETR 达到约 70% 的平均精度,同时以约 68 帧每秒的速度运行,足以满足实时机器人应用的需求。

Figure 2
Figure 2.

构建现实的测试平台

为验证 POLAR‑DETR 在实际中的有效性,团队从一条运行中的医疗生产线收集了新的数据集。使用消费级相机在不同光照条件下拍摄了数千张高分辨率图像,包含托架、载具以及多种试管类型(包括带盖、无盖和不同检测类别)。专家标注了八万多个单体对象。随后通过受控旋转、裁剪、亮度变化、合成噪声和马赛克组合扩充训练数据,以模拟现实中姿态、光照和杂乱程度的变化。该数据集不仅以密集、小尺寸和遮挡的试管来挑战模型,也为其他从事实验室自动化的研究者提供了公开基准。

对未来实验室的意义

简而言之,POLAR‑DETR 为自动化实验室提供了一双更敏锐的“眼睛”。通过对视觉系统在拥挤场景中如何注意细节的重新设计,并为速度进行裁剪,作者同时实现了更高的准确性和更低的计算成本。该系统能发现更多试管、在复杂背景下减少错误,并能跟上工业硬件的运作节奏。随着实验室持续自动化,此类方法有望使样本处理更可靠、更灵活,最终促成更快速的检测结果和更稳健的医疗工作流。

引用: Zu, Y., Li, S. & Zhang, L. POLAR-DETR: Polarized occlusion-aware local-global attention real-time detection transformer for total laboratory automation. Sci Rep 16, 11949 (2026). https://doi.org/10.1038/s41598-026-42038-5

关键词: 实验室自动化, 目标检测, 医疗生产线, 计算机视觉, 变换器模型