Clear Sky Science · zh
具有元数据的大规模结直肠癌组织学图像数据集
为何绘制癌症的隐秘“街区”至关重要
当医生在显微镜下观察结肠肿瘤时,他们看到的并不仅仅是癌细胞;还会看到由脂肪、免疫细胞、结缔组织等组成的繁忙“街区”。这种由多种细胞类型构成的混合体,被称为肿瘤微环境,会强烈影响患者对治疗的反应以及生存期。然而,能够帮助医生解析这些复杂景观的计算机一直受限于一个简单的问题:用于训练的标注图像数量不足。本研究引入了迄今为止针对结直肠癌组织中最庞大且注释最为细致的图像集合之一,专门用于训练和评估现代人工智能系统。
构建大规模结肠肿瘤影像库
研究团队建立了名为 HMU-CRC-Hist550K 的资源,来源于中国一家主要癌症医院中 500 名结直肠癌患者的组织样本。每位患者的肿瘤都被固定、按病理实验室常规染色并扫描成高分辨率数字切片。从这些切片中,团队自动裁切出小的正方形图像片段,每个片段约为病理学家在显微镜下一次能观察到的视野大小。总计约产生 55 万个此类图像片段,为人工智能模型提供了大量且多样的样本,以学习不同组织的外观特征。

对癌症景观的细致人工标注
构建大规模影像库还不够;这些图像还必须被准确标注。三位经验丰富的病理学家通过一个三步流程协作,标注出肿瘤周围的八类关键组成:脂肪组织、细胞碎屑、称为淋巴细胞的免疫细胞、黏液、平滑肌、正常的结肠上皮、肿瘤周围的支持性结缔组织,以及肿瘤细胞本身。两位病理学家首先在大切片上独立划定区域,并相互校对。随后由一位高级专家做最终审查,解决分歧并排除不明确区域。该交叉核查大大降低了个人偏差,生成了在细节上高度一致的标签,使每个图像片段都对应肿瘤“街区”中特定的组织类型。
把显微镜视图与患者故事联系起来
该数据集特别有价值的一点是图像与每位患者的丰富临床信息配对。对于每例病例,团队收集了年龄和性别等基本信息,以及肿瘤分期、肿瘤在结肠和直肠中的位置、癌细胞的异常程度、有无侵犯神经或淋巴结、以及患者治疗后生存时间等数据。他们还记录了反映肿瘤基因和蛋白特征的常规实验室检测结果。所有个人识别信息均已删除,确保无法识别患者身份。通过将组织模式与这些临床特征结合,研究人员可以探索特定微环境布局与真实世界结局之间的关系,例如哪些患者预后更好或更差。
在新数据集上检验人工智能
为了展示该数据集的实用性,科学家训练了三种不同的深度学习模型——即擅长图像任务的现代模式识别系统——来识别图像片段中的八类组织。他们采用严格规则将患者划分为训练组和测试组,以确保模型在从未见过的患者上接受评估。包括传统图像网络和较新的“视觉变换器(vision transformer)”设计在内的模型均取得了很高的准确率,在若干测试集上的表现接近完美。团队还将结果与其他先进的图像分割方法进行了比较,发现同样表现出强劲性能。研究者还使用可视化工具突出显示模型所依赖的组织区域,确认模型关注的是具有医学意义的区域而非随机模式。

对未来癌症护理的意义
对非专业读者来说,核心信息是:这项工作并未引入新的治疗方法,而是为更智能的诊断和预后打下了坚实基础。通过分享一个大规模、组织良好且公开可用的图像库并与详细患者记录相连,作者使全球研究者能够在相同的坚实基础上构建和比较人工智能工具。此类工具未来可能帮助病理学家更快、更一致地绘制肿瘤“街区”,预测哪些患者风险更高,并提出更个体化的治疗策略。尽管当前数据仅捕捉单个时间点而非数月或数年的变化,但该资源是将数字病理学和人工智能用于更好理解并最终更好治疗结直肠癌的重要一步。
引用: Wang, H., Li, H., Xue, J. et al. Large-Scale Histological Image Dataset with Metadata for Colorectal Cancer Microenvironment. Sci Data 13, 431 (2026). https://doi.org/10.1038/s41597-026-06675-9
关键词: 结直肠癌, 肿瘤微环境, 数字病理学, 深度学习, 医学影像数据集