Clear Sky Science · zh
IdentifiHR 使用基因表达预测高分化浆液性卵巢癌中的同源重组修复缺陷
这项研究对卵巢癌患者为何重要
对于患有高分化浆液性卵巢癌的人来说,这是一种最致命的卵巢癌类型之一,治疗选择可能决定生死。大约一半的此类肿瘤在修复受损 DNA 的能力上存在弱点,使它们对一种称为 PARP 抑制剂的药物尤其敏感。挑战在于为每位患者判断其肿瘤是否具有这种弱点。本研究介绍了 IdentifiHR——一种新的工具,它读取基因活动的模式,而不仅仅依赖 DNA 突变,以预测哪些肿瘤存在修复缺陷并可能从这些靶向治疗中获益最多。
从 DNA 伤痕到基因表达模式
当细胞失去一种称为同源重组的主要修复通路时,会转而使用更易出错的方法修补 DNA。随着时间推移,这会在基因组上留下特征性的“伤痕”——缺失的区域、额外的拷贝和断裂的染色体片段。现有的临床检测直接在 DNA 中寻找这些伤痕,或寻找 BRCA1、BRCA2 等关键基因的特定突变。尽管这些检测很有力,但通常需要大量的 DNA 测序,并不总是能反映肿瘤当前的修复状态。作者们提出,生物学的另一层次——肿瘤中基因的开关状态(哪些基因被开启或关闭)——是否可以作为这种损伤的实时读出,并用于将肿瘤分类为修复缺陷或修复正常。

构建基于基因的预测器 IdentifiHR
研究团队首先使用来自大型公共资源“癌症基因组图谱”(The Cancer Genome Atlas)中 361 例卵巢肿瘤的 RNA 测序数据。RNA 测序测量每个样本中哪些基因处于活跃状态以及活跃程度。他们将肿瘤分为训练组和测试组,并使用结合多种基因组伤痕度量的当前 DNA 基准为每例标注为修复缺陷(HRD)或修复正常(HRP)。在训练集肿瘤中,他们鉴定出 2,604 个在 HRD 与 HRP 癌症间活动差异一致的基因。其中许多基因位于已知在修复缺陷肿瘤中反复出现拷贝增减的基因组区域,表明基因表达信号在呼应潜在的 DNA 损伤。
可追踪修复状态的 209 基因特征
随后,研究者使用一种称为惩罚化逻辑回归的机器学习方法,将这 2,604 个基因压缩到最具信息量的集合。得到的模型命名为 IdentifiHR,仅依赖 209 个基因的表达来估计肿瘤成为修复缺陷的可能性。有趣的是,这 209 个基因中只有一个是经典的 DNA 修复基因;大多数是由于染色体结构的更广泛变化而其表达发生改变的普通基因。IdentifiHR 并非只输出是或否的标签——它产生一个概率评分,该评分与基于 DNA 的伤痕评分平滑对应,反映了修复缺陷是一个连续谱而非严格的开/关状态的观点。

在多个患者队列中测试该工具
作者在三组从未用于训练的独立数据集中对 IdentifiHR 进行了严格测试。在癌症基因组图谱的保留子集中,该模型约在 85% 的病例中正确区分了 HRD 与 HRP 肿瘤。在一项独立的澳大利亚研究中,它的表现同样良好——准确率约为 86%,该研究不仅包括原发肿瘤,还包括尸检样本、腹腔积液(腹水)样本和可能是许多此类癌症起源处的正常输卵管样本。在每个正常输卵管样本中,IdentifiHR 都正确预测了完整的 DNA 修复。该工具也能用于“伪汇总”的单细胞数据(将数千个单个癌细胞在计算上合并以模拟整体样本),同样达到约 84% 的准确率。在这些测试中,IdentifiHR 的表现与或超过了若干最初为其他癌症或为预测相关损伤评分而开发的现有基因方法。
这将如何改变研究与护理
由于 IdentifiHR 基于 RNA 数据,而 RNA 数据通常比全基因组 DNA 配置更便宜、更易获得,它为研究人员——并可能在未来为临床医生——在仅有基因表达数据时估计 DNA 修复状态提供了实用途径。该模型作为开源 R 包发布,任何拥有合适测序数据的团队都可以应用它。尽管它尚不能取代 DNA 的金标准检测,且其捕捉诸如修复恢复等更细微变化的能力仍需研究,IdentifiHR 为判断哪些卵巢肿瘤最可能对 PARP 抑制剂及类似药物有反应提供了一个强有力的新视角。对患者而言,这项工作使该领域更接近基于实际癌细胞行为的、更精确的个体化治疗决策。
引用: Weir, A.L., Lee, S.C., Li, M. et al. IdentifiHR predicts homologous recombination deficiency in high-grade serous ovarian carcinoma using gene expression. Commun Med 6, 119 (2026). https://doi.org/10.1038/s43856-026-01387-y
关键词: 卵巢癌, DNA 修复, 同源重组修复缺陷, 基因表达, 机器学习