Clear Sky Science · zh
用于精准肿瘤学中具有通用性的细胞遗传学基础模型 CHROMA
为何观察染色体仍然重要
医生在调查遗传病和许多癌症时,仍然依赖患者染色体的图像来识别缺失、额外或重排的 DNA 片段。这种细致的目视检查速度缓慢,依赖稀缺的专家,并且在人员有限或设备较旧的医院中特别困难。该研究介绍了 CHROMA,一种旨在更快、更可靠地解读染色体图像的人工智能系统,目标是推动先进基因检测在全球范围内更易获得。
用于染色体解读的新型数字助理
CHROMA 被提出为一种基础模型,即在非常大且多样化的数据集上训练的通用 AI 系统,以便处理多种相关任务。研究团队向 CHROMA 提供了超过四百万张来自 84,000 多名患者的染色体图像。这些图像展示了细胞分裂期间熟悉的 X 形结构,包含正常模式和各种遗传异常。CHROMA 并不专注于单一狭窄任务,而是在一个框架内识别多种染色体变化,从额外或缺失拷贝到断裂重连片段,甚至包括在常规实践中很少见的罕见形式。

训练 AI 去看见专家所见
为了在不要求对每张图像逐行人工标注的情况下教会 CHROMA,研究人员采用了自监督学习。他们让模型填补染色体图像中缺失的部分并去除噪声,这迫使模型学习人类专家所依赖的细致条带和形状特征。随后,他们加入了少量经过精心标注的数据,使 CHROMA 能将这些视觉线索与具体异常类型联系起来。在若干测试集上,该系统以极高的准确率区分了 24 种不同的人类染色体,并且在图像模糊、染色不均或染色体重叠拥挤的情况下,性能仍优于现有计算方法。
发现罕见且微妙的染色体改变
除了简单的染色体计数,许多疾病涉及更为微妙的重排,例如片段互换、翻转或形成环状。这类问题更难发现且可能非常罕见,因而难以在训练数据中充分覆盖。研究团队汇集了包含常见变化和少量罕见病例的专项数据集。CHROMA 能在所有这些组别中可靠地检测异常细胞,并且在数据稀缺时性能下降远小于其他 AI 方法。模型还在其内部表征中自然将不同类型的异常分成独立簇,表明即使只被要求区分正常与异常,它也学到了染色体出错方式的丰富表示。

在 AI 支持诊断中构建安全机制
由于遗传诊断中的错误可能带来严重后果,研究人员在 CHROMA 中加入了一套风险控制策略。系统不会对每个细胞强行给出自信答案,而是估计每次预测的置信度。如果病例清晰,CHROMA 会给出正常或异常的判定;如果模式不寻常或模型不确定,它会自动将该细胞标记为需人类专家复核,尤其是对三着丝点等非常罕见的模式。在测试中,这一策略通过将可疑案例引导给专家,几乎消除了漏检异常细胞的情况,使其更像谨慎的分诊助手,而非完全取代人类判断的自动系统。
对患者和诊所的意义
简而言之,研究显示经过精心训练的 AI 能扫描海量染色体图像,发现广泛的遗传问题,并知道何时寻求人类帮助。CHROMA 减少了对专家细致标注的依赖,在处理噪声图像方面优于早期工具,并内置了避免隐性错误的保障措施。虽然它并不取代专家对每一异常的全面描述,但它可以加速筛查流程,使专家专注于最复杂的病例。如果在实时医院工作流中得到验证,此类系统有望将更准确的基于染色体的检测带到癌症诊所和遗传服务机构,尤其是那些细胞遗传学家短缺的地区。
引用: Yang, C., Dai, W., Zhang, Y. et al. A comprehensive foundation model for generalizable cytogenetics in precision oncology with CHROMA. npj Precis. Onc. 10, 187 (2026). https://doi.org/10.1038/s41698-026-01383-4
关键词: 染色体成像, 精准肿瘤学, 医学 AI, 遗传异常, 细胞遗传学