Clear Sky Science · zh

Q-CaDD:将量子计算与机器学习结合以加速针对表皮生长因子受体的体内外计算方法

· 返回目录

为何新的计算工具对未来癌症药物至关重要

设计新药有点像在可能的分子稻草堆中寻找针。对于由表皮生长因子受体(EGFR)驱动的癌症,研究人员必须找到既能紧密结合该蛋白又对患者安全的化合物。本文介绍了 Q-CaDD——一个将当代机器学习与新兴量子计算思想结合的计算框架,旨在更高效地筛选数十万候选分子,并标记那些有望成为更安全、更有效药物的分子。

从与癌症相关的蛋白到数字化的搜索问题

EGFR 位于细胞表面,帮助控制细胞的生长与分裂。当其功能失常时(在非小细胞肺癌中常见),细胞可能失控增殖。已有针对 EGFR 的药物,但肿瘤可能产生耐药性,并非所有患者都有良好反应。Q-CaDD 并非逐个在实验室测试新化合物,而是利用计算模拟批量探索化学空间,寻找既能与 EGFR 结合又显示低毒性迹象的分子。该方法旨在使药物发现的早期步骤更快、更省钱、更有针对性。

Figure 1
Figure 1.

扩展并修剪庞大的分子库

该框架首先从公共数据库收集约 24,000 个已知的 EGFR 抑制分子。接着它使用生成算法系统性地调整这些结构,产生约 200,000 个相关候选物。应用两个成熟的“药物相似性”过滤器以剔除过于庞大、过于疏水或可能在体内表现不佳的化合物,将集合缩减到不足 50,000 个。随后,使用对接程序将每个分子在计算上拟合到 EGFR 的三维结合口袋中,估算每个分子可能的结合强度。这一步将注意力集中在化学上合理且预测将与靶点良好相互作用的化合物上。

教会计算机识别毒性预警信号

与 EGFR 的结合只是半个故事;有前景的化合物还必须避免损害健康组织。为估计毒性,研究使用了一个名为 Tox21 的大型公共数据集,该数据集记录了 10,000 多种化学物质如何影响各种细胞通路。作者聚焦于与雄激素受体相关的一个通路,之所以选择它是因为注释充分且在若干癌症中具有生物学相关性。每个 Tox21 分子被转换成数值指纹,以捕捉其结构特征和与其他化学物的相似性。这些指纹输入到多种预测模型中,包括神经网络、决策树、传统的支持向量机,以及一种量子启发的支持向量机,后者使用一个简单的量子电路在不同的数学空间中比较化合物。

Figure 2
Figure 2.

融合量子与经典预测

Q-CaDD 并不押注于单一模型,而是将四种模型的输出组合成一个集成体,最大权重给到神经网络,同时仍纳入量子模型那种较弱但独特的信号。在先前未见过的 Tox21 数据上测试时,这种混合方法在区分高毒性与低毒性化合物方面优于任何单个模型,评估指标为常用的 ROC 曲线下面积。尽管改进幅度有限且量子部分仍在模拟器上运行而非真实量子芯片,结果表明量子启发方法即便在早期阶段也能为现有的机器学习流程增加有用的细微信息。

从计算得分到未来的实验室测试

在验证毒性模型之后,作者将 Q-CaDD 的完整流程应用于已筛选的以 EGFR 为中心的分子库。他们避免对毒性作出硬性的二分判断,而是保留连续的风险评分,并将其与对接估算的结合强度相结合。这会产生一份候选分子的优先级清单,其中一些在预测上比参考药物对 EGFR 的结合更强且保留较低的预测毒性。这些分子并非被宣称为新药;它们只是被标记为值得进行实验室验证的先导化合物。本研究对非专业读者的主要结论不是量子计算机已彻底改变药物发现,而是精心设计的经典与量子启发工具的混合体已能帮助更精准地收窄搜索范围,推动研究人员更快地找到更好的候选分子,同时对当前硬件限制保持现实认知。

引用: Badarala, L. Q-CaDD: accelerating in silico methodologies with quantum computation and machine learning for Epidermal growth factor receptor. Sci Rep 16, 14436 (2026). https://doi.org/10.1038/s41598-026-44978-4

关键词: 量子药物发现, EGFR 抑制剂, 机器学习 毒性, 虚拟筛选, 非小细胞肺癌