Clear Sky Science · zh

基于深度学习模型预测抗癌药物效力(IC50)的基准测试及对药物化学家的启示

· 返回目录

这项研究为何对未来抗癌药物重要

设计新型抗癌药物既缓慢又昂贵,因为每一种有希望的分子都必须在活细胞中进行测试,以确定其抑制细胞生长的强度。本研究提出了一个实用问题:现代人工智能工具能否可靠地在事前预测这些测试结果,从而为实验室节省时间和成本?作者系统地比较了几种流行的深度学习系统,探讨它们成功或失败的情形,甚至提出了一种更贴近药物化学家实际需求的评估方法。

Figure 1
Figure 1.

衡量药物抑制癌细胞的强度

研究人员在测试潜在抗癌化合物时,常报告一个称为 IC50 的数值:达到将细胞生长减少一半所需的浓度。IC50 越低表示药物越有效。但相同化合物在不同癌细胞系中的 IC50 可能差异很大,甚至对同一药物-细胞组合的重复测试,由于测定方法和条件不同,结果也会有数倍的变化。传统的计算机辅助设计方法侧重于描述分子如何与单一蛋白靶点相互作用,但难以处理活细胞的整体复杂性。较新的深度学习方法则尝试直接从将化学结构与癌细胞的详细遗传信息关联到其测得 IC50 值的大型数据集中学习规律。

将五种深度学习工具纳入测试

作者考察了五种领先的深度学习模型,每种模型在表示药物和癌细胞方面采用不同策略。有些将分子视为由原子和键构成的图;有些将细胞遗传信息转换为生物过程的结构化网络,或突出最有信息量的基因。所有模型都在同一经精心整理的 GDSC 数据集上进行训练和评估,该资源包含数万条测得的 IC50 值。团队还构建了一个刻意简单的对照方法:一个忽略生物学和化学信息、仅基于训练数据预测平均 IC50 值的“基线”模型。这样他们不仅能比较哪种深度模型表现最好,还能判断任何模型是否真正优于这种非常朴素的捷径。

Figure 2
Figure 2.

一种更现实的预测评分方式

常用的机器学习评估指标,例如相关性和均方根误差,可能看起来令人印象深刻,但对于实验室科学家而言难以直观解释。为弥合这一差距,作者以更直观的方式重新表达预测质量,例如百分比误差和对应 IC50 倍数差异的对数尺度误差。关键在于,他们还通过挖掘大型生物活性数据库来量化真实 IC50 测量的噪声。他们表明,在常见测定条件下,同一药物-细胞对的 90% 重复 IC50 测量值大约落在七倍范围内。基于此,他们定义了一个新指标:考虑实验变异性的预测准确率(EVAPA),即模型预测落入该实验现实区间的百分比。

模型的强项与短板

当数据被随机拆分,使许多药物和细胞系同时出现在训练集和测试集中时,所有深度学习模型表现良好。它们与测得的 IC50 值呈强相关并具有较高的 EVAPA 分数,明显优于简单基线。当模型被要求在仍见过熟悉药物的情况下推广到全新细胞系时,表现仍然相当不错;在这种情形下,基线模型表现也出人意料地好,这表明跨多种细胞类型的平均药物行为已包含有用信息。真正的问题出现在模型面对新化学结构时:准确性急剧下降,相关性接近零甚至变为负值,在一些测试中,简单基线与深度模型不相上下或更胜一筹。团队还检查了预测误差是否依赖于药物的基本性质(如分子大小、极性或柔性)或细胞系的组织来源,发现仅有较弱的关联,这意味着模型在多样的化学和癌种之间大致同样有效——但在真正新颖的化合物上仍然表现欠佳。

测试来自近期研究的全新分子

为了超越公共数据库,作者收集了来自药物化学文献的 150 多种近期报道的抗癌化合物,并在这些未见分子上测试了若干深度学习模型。结果与 GDSC 数据中“新药”情形相呼应:预测较为嘈杂,百分比误差大,只有中等比例的预测落在现实实验界限内。尽管如此,不同测定类型下模型的行为表明,它们确实捕捉到某些与测定无关的药物影响细胞的模式。基于这些模型构建的简易网络服务现在允许化学家输入分子结构并获得数百种癌细胞系的预测 IC50 值,但需注明:当新分子与训练集中已有分子相似时,可靠性最高。

对药物发现意味着什么

这项工作表明,目前的深度学习工具在熟悉的化学空间内用于对抗癌药物进行排序和探索时已颇有用,但它们离能对真正新颖分子做出可靠预言还有很大距离。通过强调一个粗糙的基于平均值的模型有时能与复杂神经网络匹敌,并引入基于真实实验变异性的准确度衡量,研究为药物化学家勾勒出对 IC50 预测软件的更清晰预期。结论是平衡的:这些模型作为药物发现的辅助工具很有前景,尤其在经过谨慎基准测试时;但要在分布外分子上取得可靠指导,还需要在模型架构和训练上实现实质性突破。

引用: Garai, U., Pal, A.S., Ghosh, K. et al. Benchmarking deep learning models for predicting anticancer drug potency (IC50) with insights for medicinal chemists. Commun Chem 9, 106 (2026). https://doi.org/10.1038/s42004-026-01916-9

关键词: 抗癌药物效力, IC50 预测, 深度学习模型, 癌细胞系, 计算药物发现