Clear Sky Science · zh
可解释的机器学习通过保形与反事实预测解释碳酸酐酶抑制作用
更聪明的抗癌药物为何重要
癌症药物常常像粗糙的工具:它们在攻击肿瘤细胞的同时,也可能损伤健康组织并引发严重副作用。一种有前景的精确化策略是阻断一种称为碳酸酐酶的酶的特定亚型,这类酶帮助肿瘤在缺氧环境中存活。然而,这些酶的若干亚型在结构上极为相似,使得设计能选择性击中肿瘤中“坏的”亚型而不干扰遍布全身的“好的”亚型变得困难。本研究展示了可解释的机器学习如何帮助研究者应对这一难题,并设计更具选择性与更安全的药物候选分子。

误击靶点的问题
人体碳酸酐酶(hCA)有许多形式,即亚型。其中两个,IX 和 XII,与肿瘤在缺氧条件下的生存有关,因此抑制它们可能减缓疾病进展并改善治疗效果。但亚型 II 在健康组织中广泛存在,其活性位点与 IX 和 XII 十分相似。能够与这三者结合的药物可能导致代谢性酸中毒、视力障碍等不良反应。传统的实验和计算方法面临困难,因为酶是大型且复杂的分子,而且潜在的类药物化合物数量天文般庞大。在实验或计算上对它们逐一穷尽测试根本不可行。
构建干净且可信赖的数据基础
作者首先从 ChEMBL 数据库汇集了数千个对 hCA II、IX 和 XII 有测试数据的分子,经过仔细清理。他们标准化化学结构、剔除可疑测量,并聚焦于具有该类抑制剂典型的共通配锌基团的化合物。通过严格的阈值,他们将分子标注为明确的活性或明确的非活性,并舍弃可能混淆模型的边界情况。由于非活性分子远多于活性分子,他们对数据进行了平衡处理,以避免学习算法简单地偏向多数类。他们还采用基于分子骨架(scaffold-based)的划分方法,使训练集与测试集包含不同的核心分子框架,从而更真实地评估模型在处理全新化合物时的表现。

数据有限时,简单模型胜过深度学习
在这一经过整理的数据集上,团队比较了广泛的方法,从经典机器学习方法如逻辑回归、随机森林和支持向量机(SVM),到现代深度神经网络,包括直接在分子结构上运行的图神经网络。他们还尝试了多种分子编码方式,例如传统的人工设计描述符、基于键的指纹,以及来自化学语言模型的学习嵌入。在针对所有三种酶亚型并采用更严格的骨架划分评估下,一种组合持续表现最佳:以扩展连接指纹(extended-connectivity fingerprints)作为输入的 SVM,这是一种描述分子局部化学环境的结构化方法。令人惊讶的是,这一相对简单的方案胜过了更时髦的图模型与深度学习模型,强调了在样本规模有限时,数据质量、谨慎的验证和良好的分子描述符往往比算法复杂性更为关键。
加入可靠的置信度和更易于理解的解释
研究人员随后在他们表现最好的 SVM 模型外加了两个层,使其预测在实际药物发现中更有用。首先,他们应用了一种称为保形预测(conformal prediction)的框架,这一方法不只是输出简单的肯定或否定,而是提供一个可能结果的区间并附带保证的错误率。这使得科学家可以调整模型的谨慎程度,并识别模型真正不确定的情况。其次,他们使用反事实解释使模型的推理更直观。对于给定分子,他们生成高度相似的类似物,这些类似物会将预测结果从活性翻转为非活性,或反之。针对临床候选分子 SLC-0111(它选择性地抑制 IX 和 XII 而不抑制 II)检查这些对比对,方法独立地重现了一个重要的医药化学见解:分子“尾部”的小改动会显著改变其偏好的结合亚型。
从算法到实用的药物设计工具
为使其方法更易获取,作者将三款 SVM 模型、不确定性层和反事实引擎打包成一个名为 CAInsight 的图形工具。用户可以提供分子的文本表示,并通过一次点击获得对 hCA II、IX 和 XII 的预测活性、每个预测的可信度估计,以及可能提高或降低活性的结构建议。虽然这些模型侧重于将分子分类为活性或非活性,而不是一步预测精确效力或选择性,但它们已经能重现真实药物候选分子的已知行为并区分微妙的结构变化。作者指出,更大且更一致的数据集,以及对如何选择活性阈值的更深入分析,可能进一步提升性能。
这对未来抗癌药物意味着什么
简而言之,这项工作表明,经过精心构建且解释清晰的机器学习模型可以帮助化学家设计更能区分外观相似酶靶点的抗癌药物。通过结合稳健的统计、置信度估计和直观的“假设——如果”示例,该框架不仅能预测哪些分子更可能有效,还能说明原因。这种透明的人工智能有望加速虚拟筛选、支持新化合物的生成式设计并减少实验室中的反复试错,最终有助于发现更具选择性且更安全的患者治疗方案。
引用: Ghamsary, M.S., Rayka, M. & Naghavi, S.S. Interpretable machine learning rationalizes carbonic anhydrase inhibition via conformal and counterfactual prediction. Sci Rep 16, 8419 (2026). https://doi.org/10.1038/s41598-026-39771-2
关键词: 碳酸酐酶抑制剂, 可解释的机器学习, 药物选择性, 保形预测, 反事实解释