Clear Sky Science · zh
BreastDCEDL:一个包含2,070名患者、可供深度学习使用的标准化乳腺DCE‑MRI数据集
这对乳腺癌护理为什么重要
当某人被诊断为乳腺癌时,医生必须迅速决定哪些治疗最有可能有效。强大的MRI扫描可以显示肿瘤的行为,但将这些影像转化为可靠的、用于指导治疗的计算机工具一直很困难。本文介绍了BreastDCEDL——一个大型、精心整理的乳腺MRI影像集合,专门为帮助研究者构建和测试预测肿瘤治疗反应的人工智能(AI)系统而设计。
观察肿瘤随时间的变化
医生常用一种称为动态对比增强MRI(DCE‑MRI)的特殊扫描来观察乳腺肿瘤。在这种扫描中,在注入造影剂前后拍摄图像,捕捉几分钟内肿瘤的血流变化。癌变组织往往具有渗漏且紊乱的血管,因此其显影和消退方式与正常组织不同。这些时间序列图像能揭示肿瘤的侵袭性,并可能帮助预测肿瘤在化疗等强力药物治疗后是否会完全消失。

将分散的影像转为统一资源
到目前为止,乳腺MRI领域的AI进展受制于数据分散:不同医院以不同格式存储影像、使用不同扫描仪并以不同方式记录临床信息。BreastDCEDL项目通过整合来自三个主要研究组(I‑SPY1、I‑SPY2 和 Duke)共2,070名患者的治疗前DCE‑MRI影像来解决这一问题。团队将超过850万张独立影像切片转换为略多于一万一千个3D体积,采用在医学影像研究中广泛使用的标准格式。他们还在时间(造影前、早期增强、晚期增强)和空间上对影像进行了仔细排序,以确保每位患者的扫描能正确对齐。
标注肿瘤并配对临床事实
要让AI学习,它必须知道肿瘤的位置以及患者的结局。在BreastDCEDL中,每位患者都有肿瘤标注和关键临床信息。对于I‑SPY组,描述肿瘤轮廓的复杂计算机编码被解码为逐体素的简单3D掩模,标出肿瘤区域。对于Duke组,放射学专家在每例中对最大肿瘤绘制了包围盒。除影像外,数据集中还包含患者年龄、基本人口学信息、肿瘤大小、激素受体(HR)状态、HER2状态,以及肿瘤在治疗后是否完全消失——即病理完全缓解(pCR)。这个结局在1,452名患者中可用,与长期生存密切相关,是预测模型的主要目标之一。
为AI工具构建公平的测试
为了便于比较新的AI方法,作者提供了固定的训练、验证和测试分组,并在各组中保持相似的pCR发生率。这样,不同研究团队可以在完全相同的患者集合上测试模型,使性能声明更可信。该数据集还保留了真实医院中存在的自然多样性:影像来自多个中心、不同的MRI设备,以及对HR和HER2阳性定义的细微差异。BreastDCEDL并未抹平这些差异,而是清晰记录,以便研究者自行决定如何处理这些差异,并测试其模型在不同患者群体和扫描条件下的稳健性。

为未来研究打开的可能性
BreastDCEDL不仅仅是一堆影像;它是一个结构良好的工具包,可支持多种研究类型。研究者可以训练AI系统定位肿瘤、测量肿瘤体积、在治疗开始前预测pCR,并探索影像模式与肿瘤生物学之间的关联。那些没有结局数据的患者仍可通过为无监督和半监督学习提供额外样本发挥作用。由于所有文件遵循简单的命名系统和通用格式,科学家可以使用标准软件快速加载和分析它们,节省大量人工准备时间并减少出错机会。
通往个体化治疗的更清晰路径
简单来说,这项工作将来自多家医院的混杂乳腺MRI影像集合转变为一个清晰、共享的AI研究基础。通过标准化影像和临床信息的存储方式,并一致地标注肿瘤和结局,BreastDCEDL为研究者提供了构建和公平测试计算机工具所需的资源,未来这些工具有望帮助医生为每位患者选择合适的治疗方案。尽管该数据集本身并不能治愈癌症,但它消除了通向更精确、基于数据的乳腺癌护理道路上的一大障碍。
引用: Fridman, N., Solway, B., Fridman, T. et al. BreastDCEDL: A standardized deep learning-ready breast DCE-MRI dataset of 2,070 patients. Sci Data 13, 264 (2026). https://doi.org/10.1038/s41597-026-06589-6
关键词: 乳腺MRI, 癌症影像, 医学人工智能, 治疗反应, 医学数据集