Clear Sky Science · zh

利用基于图的描述符和机器学习对细胞毒性化合物的定量研究

2026-01-12 · 返回目录

这项研究为何对未来抗癌药物重要

能杀死肿瘤细胞的癌症药物，称为细胞毒性药物，往往在挽救生命与引发严重副作用之间走钢丝。为了设计更安全、更有效的治疗方案，科学家需要快速且可靠的方法来预测这些药物在体内的行为——它们的吸收情况、穿越细胞膜的难易程度以及最终分布位置。本研究表明，把药物分子的数学表征与现代机器学习结合，可以精确估算控制这些行为的关键性质，从而有望加速更好抗癌疗法的筛选过程。

控制药物去向的关键表面

论文中的一个核心概念是拓扑极性表面积（Top_PSA）。简单来说，这个数值反映了分子表面有多少比例由“极性”区域组成——即亲水、能够形成氢键的部分。极性表面积很高的分子通常难以穿过疏脂的细胞膜，口服时可能吸收不良；而极性表面积很低的分子则可能过于容易穿透多种屏障，有时会在诸如大脑等敏感组织引发不良副作用。Top_PSA 成为估计这些运输特性的常用捷径，是因为它可以从分子的二维结构快速计算得到，无需耗时的三维模拟。

把分子结构图变成数字

研究者汇集了一个经人工整理的包含156种不同细胞毒性化合物的数据集，来源于真实的抗癌药物和实验性化合物。他们随后将每个分子转换为58个所谓的描述符——这些数值捕捉了诸如原子数、环的数量、键的柔性、有多少原子能形成氢键以及不同部分的极性或电负性等特征。许多描述符来源于图论，把分子视为由节点和连边构成的网络。对每个分子的这种丰富数值描绘被用作计算模型的输入，用来预测由常用化学工具包计算出的 Top_PSA 值。

比较多条路径以获得准确预测

为找出将这些描述符与 Top_PSA 关联的最佳方法，团队比较了若干建模策略。他们尝试了标准线性回归以及两种“正则化”版本的岭回归和 LASSO 回归，这些方法能更好地应对噪声和信息重叠。他们还探索了不同的数据预处理方案：直接对原始描述符拟合模型、用主成分分析（PCA）压缩特征、采用能降低极端值影响的稳健缩放（robust scaling）、调整异常值，以及使用方差膨胀因子（variance inflation factor）来剪除高度相关的特征。每种方法都通过 k 折交叉验证进行严格评估，这种方法通过反复将数据分为训练集和测试集来防止过拟合。

哪种方法效果最好以及模型学到了什么

最明显的赢家是将稳健缩放与 LASSO 回归相结合的方案，其决定系数（R²）约为0.97——意味着该模型能解释大约156种药物中 Top_PSA 变异的97%。基于 PCA 的模型在原始准确度上接近，但在化学可解释性上较差，因为原始描述符被混合为抽象成分。仅用方差膨胀因子简单剪除相关描述符反而降低了性能，这表明某些重叠的度量仍然携带有用的化学信息。通过检查 LASSO 保留为非零的描述符权重，作者发现最重要的因素包括存在的杂原子（如氮和氧）、给出或接受氢键的能力，以及跟踪电负性原子在分子图中分布的指标——这些特征与直观的极性表面积化学理解相一致。

这如何指导更好的药物设计

对非领域读者而言，关键信息是：经过精心预处理的分子数学指纹，与恰当选择的机器学习方法配对，可以快速且可靠地估计癌症药物在体内“黏附”或“穿透”的倾向。该研究为其他研究者提供了关于如何预处理描述符数据、应优先选择哪些建模方法以及应避免哪些捷径的实用建议。从长远看，这类稳健且可解释的 Top_PSA 模型可以帮助化学家从巨大的虚拟化合物库中筛选，聚焦于在膜穿透能力与安全性之间达到合适平衡的候选分子——这是朝着更有效且毒性更低的抗癌治疗迈出的重要一步。

引用: Ahmad, S., Javed, S., Khalid, S. et al. A quantitative study of cytotoxic compounds using graph based descriptors and machine learning. Sci Rep 16, 5076 (2026). https://doi.org/10.1038/s41598-026-35728-7

关键词: 细胞毒性药物, 极性表面积, 分子描述符, 机器学习, 药物渗透性