Clear Sky Science · zh

使用 DrEval 对药物反应预测模型进行严格评估

· 返回目录

为何更聪明的癌症药物检测很重要

医生在选择癌症用药时,常依赖肿瘤类型和少数基因标志物等粗略分类。过去十年间,科学家开始在成百上千种体外培养的癌症细胞系上测试数百种药物,同时测量每个细胞系的基因和其他分子特征。许多计算模型声称可以基于这些数据预测哪些药物有效。本文对这些主张进行严格审视,并介绍了 DrEval——一个新的评估工具包,用以测试这些模型在类似真实医疗决策情形下的实际表现。

Figure 1. 共享测试管线如何揭示计算模型在预测癌症药物反应方面的真实价值。
Figure 1. 共享测试管线如何揭示计算模型在预测癌症药物反应方面的真实价值。

计算机如何尝试预测药物是否有效

药物反应预测模型从大型筛选项目中学习,这些项目将癌症细胞系暴露于不同剂量的多种药物,并测量其存活情况。研究者向每个模型提供细胞系的详细分子谱和各种药物描述,然后让模型预测常用的总结性指标,即每种药物抑制细胞生长的强度。一些方法为每种药物训练一个模型,而另一些则在多种药物上训练单一模型,希望它能甚至估计新药的反应。在论文中,这些方法常报告令人印象深刻的准确度数字,似乎表明个性化癌症治疗指日可待。

当前评估中的隐蔽陷阱

作者表明,这些乐观结果常常源于数据划分和评分方式,而非对癌症生物学的真正洞察。如果相同的细胞系或药物同时出现在训练集和测试集中,模型可能仅仅记住典型行为,而不是学习更深层的模式。由于不同药物在剂量范围上差异很大,仅记住每种药物的平均反应就能解释数据中很大一部分变异。这就制造出一种统计幻觉,使整体准确度看起来很高,尽管模型并不能区分哪些具体细胞系对某种药物更敏感或更不敏感。

DrEval 有何不同

DrEval 是一个开放的基准测试框架,标准化了药物反应模型的测试方式。它提供了统一的数据集、细致的数据清洗,以及若干反映常见目标的现实测试场景:预测新患者(新的细胞系)、新癌症类型(新的组织)或全新药物的反应。它还包括简单的基线方法,例如仅使用每种药物和细胞系平均效应的预测器,以及比深度神经网络更易训练的基于树的模型。DrEval 在相同的交叉验证和调参方案下运行所有模型,并用能去除平均药物与细胞系效应误导影响的指标报告结果。

Figure 2. 去除简单平均效应如何暴露出现代模型在癌症药物反应数据中捕捉到的微弱真实信号。
Figure 2. 去除简单平均效应如何暴露出现代模型在癌症药物反应数据中捕捉到的微弱真实信号。

测试对当今模型的揭示

当作者将各种现代模型通过 DrEval 运行时,发现许多模型仅仅比只使用药物和细胞系平均行为的简单预测器稍好。在对患者最相关的情形下——模型必须处理从未见过的细胞系时,经过调参的基于树的集成方法(如随机森林)表现与复杂深度网络相当甚至更好。当要求预测未出现在训练数据中的药物效应时,所有方法都失败了;从一个筛选研究转到另一个,或从细胞系转到更现实的患者样本时,性能都显著下降。严谨的“消融”实验显示,大多数有用信号来自基本的基因活性测量,而额外的数据层和复杂的药物编码常常贡献甚微。

这对未来癌症治疗意味着什么

该研究的主要结论是,可靠地预测癌症药物反应仍未解决。许多早期的成功故事是被偏倚的评估放大了,而非真实的预测能力。通过揭示这些问题并提供一个共享且可复现的测试平台,DrEval 有助于研究领域聚焦于真正学会癌症如何对治疗作出反应的方法,而不是利用数据中的捷径。对患者而言,这意味着计算模型尚未准备好用来指导常规用药选择,但通向可信工具的路径更为清晰:更好的数据、更严格的测试,以及对简单与复杂模型之间的公平比较。

引用: Bernett, J., Iversen, P., Picciani, M. et al. Critical evaluation of drug response prediction models with DrEval. Nat Commun 17, 4238 (2026). https://doi.org/10.1038/s41467-026-72903-w

关键词: 药物反应预测, 癌症细胞系, 机器学习, 基准测试, 模型评估