Clear Sky Science · zh
包含 RECIST 测量和肿瘤及淋巴结全面分割掩码的 CT 数据集
为何该癌症影像资源重要
癌症治疗越来越依赖医学影像来判断治疗是否有效。然而,医生在 CT 影像上逐片进行的精确测量既耗时又可能因专家不同而有所差异。本文介绍了一个新的、公开可用的癌症患者 CT 扫描集合,其中肿瘤和淋巴结都按照广泛使用的临床准则被仔细勾画和测量。该数据集旨在帮助研究人员开发和测试能够在未来接管大量繁琐工作的计算程序,从而使癌症治疗监测更加快速且一致地在全球推广。
医生目前如何追踪肿瘤
为了判断癌症治疗是否有效,放射科医生常常遵循一项名为 RECIST 1.1 的标准。实际上,这意味着他们在患者的 CT 扫描上选择少数“靶病灶”,并记录每个病灶可见的最长直径(以毫米为单位)。随着时间推移,他们将这些直径之和与早期影像比较,以判断疾病是缩小、稳定还是增长。尽管该方法为临床试验带来了必要的规范,但也存在缺点:结果高度依赖于医生选择了哪些病灶,依赖一维测量而非真实的三维体积,且通常每位患者每次评估需耗时超过 10 分钟。随着全球癌症病例增加,这些限制给放射科服务带来了真实的压力。

该新 CT 数据集包含哪些内容
作者收集了智利大学临床医院 22 名成年人因多种癌症接受治疗的 CT 扫描,涵盖肺、肝、结直肠、乳腺、卵巢、胃、胆囊、膀胱癌以及黑色素瘤等。研究选取了 2017 至 2023 年间的 58 组胸腹部扫描序列,识别出所有足以测量的实体肿瘤或增大的淋巴结。总计手工勾画了 1,246 个独立病灶:1,148 个转移瘤(已扩散的肿瘤)、93 个增大淋巴结和 5 个原发肿瘤。其中 82 个病灶还包含临床报告中记录的官方 RECIST 测量值,便于将常规临床实践与自动化方法进行并列比较。
专家与人工智能如何协同工作
单靠人工制作如此详尽的轮廓通常会慢得不可行,因此团队采用了“人机闭环”策略。经验丰富的放射科医生和住院医师先在疑似肿瘤处画出粗略的三维包围框,然后一个名为 MedSAM 的强大分割模型提出初始边界。住院医师对这些边界进行修正,资深放射科医生再做最终审查。每完成一批扫描,便用改进后的轮廓重新训练 AI 模型,并用于下一批的辅助。随着每个循环进行,模型性能逐步接近人类专家可接受的水平,减少了后续修正所需的工作量,同时保持准确性。
数据揭示了关于肿瘤的哪些信息
由于对扫描中每个病灶都进行了三维勾画,作者能够详尽研究其体积和密度特征。大多数肿瘤位于肺和肝。肺部肿瘤体积通常较小,但往往具有相对较长的直径;而淋巴结显示出较大的体积但主要直径比肝脏肿瘤略短。团队还考察了这些区域在 CT 上的明暗程度,这是与组织密度相关的性质。受空气包围的肺部肿瘤在强度模式上与肝脏肿瘤和淋巴结明显不同,这表明来自 CT 图像的简单数值特征可能有助于区分病灶类型。重要的是,研究确认了病灶最长直径与其真实三维体积之间存在强相关,支持在谨慎应用的前提下以直径为基础的规则(如 RECIST)可作为全面体积测量的实用替代。

用深度学习对数据集进行检验
为展示该数据集的应用价值,研究人员训练并优化了两类深度学习系统。首先,他们对 MedSAM 进行了微调,使其能够从简单的包围框中自动分割肿瘤,所得与专家轮廓的重叠评分处于与更大型国际数据集中报告的相同范围。其次,他们采用了广泛使用的 nnUNet 框架,基于在全球肺部和肝脏影像挑战中训练的模型,再在这套智利数据上进行微调。微调后,这些系统匹配或超过了原有性能,尤其在肺部肿瘤方面表现显著,即便患者队列相对较小。这证明了经过精心策划的本地数据能够显著提升医院特定环境中 AI 工具的可靠性。
这对未来癌症护理意味着什么
对非专业读者而言,核心信息是:该数据集是一个助力工具,而非独立的诊断产品。通过公开分享对每个可见肿瘤和淋巴结均已勾画、在许多情况下已被精确测量的 CT 扫描,作者为旨在自动化肿瘤追踪的算法提供了现实的训练场。此类工具可以帮助放射科医生减少手工测量的时间,将更多精力用于复杂判断,同时减少不同读者之间的差异。由于数据来自一家拉丁美洲医院并以宽松许可发布,它还有助于确保未来的医学 AI 在更多样化的患者群体上接受测试,从而提高自动化癌症监测在全球范围内可靠运行的可能性。
引用: Rojas-Pizarro, R., Vásquez-Venegas, C., Pereira, G. et al. A CT Dataset with RECIST Measurements and Comprehensive Segmentation Masks for Tumors and Lymph Nodes. Sci Data 13, 270 (2026). https://doi.org/10.1038/s41597-026-06597-6
关键词: 癌症影像, CT 扫描, 肿瘤分割, RECIST, 医学人工智能数据集