Clear Sky Science · zh
用于口腔鳞状细胞癌诊断与预后的一组高倍放大组织病理图像数据集
这项研究为何重要
口腔癌常常悄然出现,可能始于口腔内的一个小溃疡,最终发展为危及生命的疾病。医生依赖显微镜下的组织切片图像来判断肿瘤的严重程度以及复发或转移的可能性,但读取这些图像既耗时又要求很高的专业技能。本研究引入了一个丰富的新图像集合,旨在帮助人工智能(AI)系统与病理学家并肩解读这些切片,长期目标是为患者提供更快、更准确的疾病与治疗选择判定。

更细致地观察一种常见口腔癌
研究聚焦于口腔鳞状细胞癌,这是口腔中最常见且侵袭性较强的癌症之一。它常见于有烟酒史的人群,并可能扩散到邻近组织和颈部淋巴结。目前,诊断的金标准仍是病理学家在显微镜下观察经染色的组织切片。从这些切片中,专家评估细胞的异常程度、肿瘤侵入的深度、是否侵犯神经或血管以及其他影响生存率的特征。作者认为,这些显微模式包含的信息远超过人类能轻松追踪的范围,使其成为现代 AI 的理想目标。
从组织图像构建更丰富的图景
为了解锁这些信息,研究团队创建了 Multi‑OSCC 数据集:收集自 2015 至 2022 年间在同一家医院接受口腔癌治疗的 1,325 名患者的显微镜图像。对每位患者,病理学家准备了两块组织块——一块来自肿瘤中心,一块来自其侵袭边缘——并在三个放大倍数下采集高分辨率图像,类似于从飞机、屋顶和街角观察一座城市。这为每位患者产生了六张精心挑选的图像,每张图像包含癌细胞簇、角蛋白旋涡以及高度异常的细胞核等关键结构。除图像外,研究者还收集了详尽的病历和长期随访数据,以观察哪些肿瘤会复发或转移。
医生真正关心的六个问题
Multi‑OSCC 的特别之处在于它反映了真实的临床问题,而非仅关注单一标签。数据集中每位患者都标注了六项重要结局。其中一项是术后两年内肿瘤是否复发——这是大多数复发发生的关键窗口期。另一项是癌细胞是否已累及颈部淋巴结,这会影响是否采取更大范围的颈部手术。其余四个标签则记录肿瘤细胞的分化程度、肿瘤的侵袭深度,以及是否进入血管或沿神经生长——这些细微但有力的线索共同指示癌症的危险性。此设计使 AI 模型能够学习的不仅仅是“癌症与正常”的二元判断,而是更完整的风险与严重程度画像。
教 AI 解读复杂切片
随后,研究者对不同 AI 策略在这一高难度数据集上的表现进行了基准测试。他们比较了若干现代图像识别骨干网络,包括经典的卷积网络和较新的基于变换器(transformer)的模型,发现专门在病理图像上预训练的变换器总体表现最佳。他们测试了如何融合每位患者六张图像的信息,结果表明一种简单的策略——从每张图像提取特征然后将其串联——优于更复杂的融合方案。他们还考察了染色颜色标准化对性能的影响,发现保留原始颜色对预测复发至关重要,而温和的颜色归一化则有助于其他诊断任务。

局限、意外与下一步
一个出乎意料的发现是,训练一个单一 AI 模型同时处理六个问题,目前还无法超越为每个任务分别训练的模型。另一个发现是,尽管显微镜下的局部图像富含细胞学细节,但仍缺乏整片切片所能提供的整体结构视野。尽管如此,在 Multi‑OSCC 图像上训练的模型明显优于仅使用年龄、习惯和病史等临床数据的模型,尤其在预测肿瘤复发方面效果更佳。作者将 Multi‑OSCC 定位为一个起点:一个公开的、文档完善的数据集,供他人开发和比较方法使用。对患者而言,基于该资源构建的未来工具有望帮助医生更可靠地识别哪些口腔癌更可能复发或转移,从而实现更个性化的治疗,最终提高生存机会。
引用: Guan, J., Guo, J., Chen, Q. et al. A High Magnifications Histopathology Image Dataset for Oral Squamous Cell Carcinoma Diagnosis and Prognosis. Sci Data 13, 371 (2026). https://doi.org/10.1038/s41597-026-06736-z
关键词: 口腔癌, 组织病理图像, 人工智能, 深度学习, 医学影像数据集