Clear Sky Science · zh
STHELAR:一个将空间转录组学与组织学联系起来以进行细胞类型注释的多组织数据集
为什么显微镜下观察癌症还不够
肿瘤学医生仍然在很大程度上依赖显微镜下的观察:用苏木精‑伊红(H&E)染色的薄切组织呈现出的粉色与紫色图像。这些图像能显示形状与模式,但无法直接揭示每个细胞内哪些基因处于活跃状态。一个名为 STHELAR 的新资源将这两种世界连接起来,把熟悉的组织切片视图与前沿的“空间”基因活性测量结合在一起。对读者而言,这项工作重要在于它为未来可能仅通过普通数字图像就能读取肿瘤分子构成的更快、更廉价的工具打开了大门。
把肿瘤视为一个拥挤的社区
肿瘤不仅仅是失控的癌细胞;它们像拥挤的社区,充斥着免疫细胞、血管、支持细胞和正常组织。居住者的组合与排列——即肿瘤微环境——会影响癌症的生长以及对治疗的反应。空间转录组学是一项新兴技术,能够在保留组织中精确位置信息的同时绘制出哪些基因在单个细胞中被激活的图谱。然而,这类实验成本高、技术要求高,尚未成为常规诊疗的一部分。相比之下,高分辨率的 H&E 切片扫描现在很普遍、易于存储,且已在全球范围内广泛使用。STHELAR 的核心思想是利用有限数量的空间转录组学实验作为“教师”,去指导标准 H&E 图像中数以百万计的细胞。

构建庞大的带标签细胞库
作者收集了来自 31 个组织切片的数据,这些切片使用 10x Genomics 的 Xenium 空间转录组学平台测量,覆盖 16 种人类组织以及 22 个癌症样本和 9 个非癌样本。对每个切片,他们获取了三种配对视图:H&E 切片、显示细胞核的荧光图像以及单个 RNA 分子的地图。对齐这些视图需要仔细的质量检查,并且对许多切片进行了人工微调,以确保荧光图像中的每个细胞核都与 H&E 图像中的相应结构对齐。从这些对齐图像中,他们获得了超过 1100 万个不同细胞和超过 50 万个小的 H&E 补丁,每个补丁都包含每个细胞核的精确轮廓。
教会计算机识别每种细胞类型
仅知道每个细胞的位置还不够;关键步骤是确定它属于哪种细胞。为此,团队将空间转录组学数据与大型的现有单细胞 RNA 图谱目录结合起来。使用一种名为 Tangram 的方法,他们首先将参考图谱中可能的细胞身份转移到空间数据上。然后他们通过基于基因活性将细胞分组为簇并检查哪些基因区分各簇来改进这些初步标签。当标志基因与 Tangram 一致时,该标签被接受;当两者不一致时,组织中的局部基因模式优先。最后,他们将所有切片的结果统一为十个大类,例如上皮细胞、血管、免疫细胞群、成纤维细胞、黑色素细胞以及一个“其他”组。病理学家在 H&E 图像上对结果进行了目视检查,以确保标签在生物学上合理。

将丰富的分子图谱转化为训练材料
在每个细胞既有位置又有类型之后,作者将每张 H&E 切片切成小方块,类似于图片编辑程序中的图像平铺。对于每个平铺,他们生成两种关键要素:一是勾勒出每个细胞核的掩膜,二是指示其细胞类型的颜色编码。这产生了大约 587,000 个高倍放大平铺以及稍少量的低倍平铺。他们还将这些细胞核轮廓与现有深度学习模型(CellViT)自动生成的轮廓进行了比较并计算了一致性评分,便于未来用户筛除质量较低的区域。所有这些信息——图像、掩膜、基因计数、细胞标签和质量评分——都打包成标准化数据对象,便于研究人员轻松浏览或重用该数据集。
展示计算机可以从这个新图谱中学习
为了展示 STHELAR 的潜力,团队对 CellViT 模型进行了微调,CellViT 是一种用于在 H&E 图像中分割和分类细胞的强大视觉变换器。以 STHELAR 的标签作为真实标注,他们训练模型识别九类详细细胞,并在第二个实验中识别五类更宽泛的群组(例如将若干免疫细胞类型合并)。微调后的模型在检测和勾画细胞核方面保持了较强性能,并在视觉上易辨的细胞(如上皮细胞和黑色素细胞)上达到了良好的准确性,而更为微妙的免疫亚型仍然具有挑战性。他们还将注释与独立的标注方法(SingleR)和替代的基于 RNA 的模型进行了比对,总体上发现一致性良好。
这对未来癌症诊断意味着什么
STHELAR 与其说是一个单一算法,不如说是一个参考图谱:一个公开的大规模联系,连接病理学家在常规 H&E 切片上看到的图像与空间转录组学揭示的每个细胞的基因活性之间的关系。对非专业人士来说,要点是该资源大大简化了训练和测试能够直接从常规图像推断肿瘤细胞构成的计算模型的过程,而无需对每位患者都进行昂贵的分子检测。随着此类模型的改进,它们可能帮助医生从常规切片读取肿瘤内部看不见的分子“对话”,从而支持更精确的诊断和更好地个体化治疗。
引用: Giraud-Sauveur, F., Blampey, Q., Benkirane, H. et al. STHELAR, a multi-tissue dataset linking spatial transcriptomics and histology for cell type annotation. Sci Data 13, 665 (2026). https://doi.org/10.1038/s41597-026-06937-6
关键词: 肿瘤微环境, 空间转录组学, 组织病理学成像, 细胞类型注释, 癌症中的深度学习