Clear Sky Science · zh
HMI-LUSC:用于肺鳞状细胞癌的组织学高光谱成像数据集
以新颜色观察癌症
肺癌仍然是全球最致命的疾病之一,部分原因在于在显微镜载玻片上发现每一个癌细胞既困难又耗时。病理学家通常依赖于显微镜下的紫红色染色组织,这种方法能捕捉结构信息,却容易遗漏微妙的化学线索。本文介绍了 HMI-LUSC,这是首个公开可用的肺鳞状细胞癌显微镜图像集合,图像不仅包含三种颜色,而是在数十个窄波段上采集,为计算机和临床医生提供了更丰富的视角,揭示肿瘤细胞与其健康邻居之间的差异。

从简单彩色图像到光谱指纹
传统数字病理学的工作方式类似于手机相机:记录红、绿、蓝三通道来近似人眼所见。高光谱成像更进一步,将光分解为多个紧邻的波长,生成一个三维“数据立方体”,其中组织的每一个微小点都有其详尽的色谱。将这一思想与显微镜结合,就形成了高光谱显微成像,能够在单个细胞尺度上同时捕捉精细结构和丰富的光谱信息。此类数据可以揭示组织在吸收和反射光方面的差异,这些差异在标准图像中不可见,从而为癌变和非癌变区域创建独特的光谱“指纹”。
为肺癌研究建立新库
作者创建 HMI-LUSC 以填补一个明显空白:在此项工作之前,尚无公开的肺癌高光谱切片数据集,这使得基于计算机的诊断方法难以测试和比较。他们从10名接受肺肿瘤手术的患者处收集组织,制备标准的苏木精-伊红染色切片,并以高分辨率扫描这些切片。经验丰富的病理学家标注了肿瘤和正常区域,然后对代表性区域使用定制高光谱显微镜重新成像。每幅所得图像覆盖小块组织,但跨越450到750纳米之间的61个波长,分辨率为3088×2064像素。对于每个区域,数据集包含原始光谱立方体、常规 RGB 渲染图像以及勾勒肿瘤组织位置的掩模。
将粗略轮廓转化为细胞级地图
尽管切片级标注有用,但训练现代算法通常需要细胞级的信息。手工描绘每个细胞并不现实,因此团队设计了半自动化流程。首先,他们使用标准计算机视觉方法根据光谱相似性将像素分组为簇。随后病理学家在组织图像上叠加这些簇进行检查,并将其分为四类:肿瘤细胞、非肿瘤细胞、如基质或血管等非细胞组织,以及空白背景。第二位病理学家对结果进行了复核和调整,分歧通过共识解决。最终得到一组详尽的像素级掩模,能够捕捉细胞类型的微妙混合以及模糊的边界区域,为机器学习系统提供更丰富的训练材料。

保证数据清晰可靠
为了使数据集可信,作者对成像系统进行了全面测试。他们验证显微镜能够分辨约一微米的精细结构——足以区分单个细胞——并且在大多数波长下图像噪声较低。他们还将测得的标准光源光谱与参考曲线以及商业高光谱相机进行了比较,结果高度一致。最后,他们通过运行基线计算模型(从经典机器学习方法到简单的深度学习网络)来演示数据的实际用途,以分割肿瘤区域。即使在没有大量优化的情况下,这些模型也达到了稳健的准确度,表明该数据集非常适合作为未来方法的基准。
这对未来肺癌护理的意义
HMI-LUSC 并不能取代大量标准切片集,也尚非独立的临床工具。相反,它为研究人员提供了一个精心策划的窗口,展示肺肿瘤细胞在多波长光下如何与邻近组织不同。通过公开这些数据、标签和代码,作者为利用光谱信息开发和比较算法提供了共同的测试平台,范围从简单分类器到复杂神经网络。长期来看,这类工作或能帮助计算机辅助病理学家更准确、更快速地发现肿瘤,并可能揭示普通图像无法显示的与肿瘤类型或治疗反应相关的光谱模式。
引用: Yan, Z., Huang, H., Guo, Y. et al. HMI-LUSC: A Histological Hyperspectral Imaging Dataset for Lung Squamous Cell Carcinoma. Sci Data 13, 415 (2026). https://doi.org/10.1038/s41597-026-06766-7
关键词: 高光谱成像, 肺癌, 数字病理学, 肿瘤分割, 医学成像数据集