Clear Sky Science · zh
NM-多项式指标的数学建模与计算用于物理化学性质预测
这对未来药物意味着什么
设计新药有点像设计飞机:在真正制造之前,你希望知道它会如何表现。对于药物而言,这些表现包括挥发性、与水或脂肪的相容性,以及在体内的迁移方式。本文展示了如何用精心构建的数学从分子结构直接预测许多物理和化学性质,可能在药物发现过程中节省时间、成本和反复试验。 
从分子到网络
作者将药物分子不仅视为原子的集合,而是视为网络。在这种描绘中,每个原子是一个点,每个化学键是连接两点的线。这样的描述来自图论——研究各种网络(从社交媒体连接到电力网)的数学分支。化学家几十年来一直使用这种“分子图”,因为这些图的一些数值概述——称为拓扑指标——常常能够反映分子在现实世界中的行为,例如沸点或密度等。
在图中加入邻域细节
传统指标通常只关注每个原子连接了多少键。该研究团队更进一步,使用所谓的邻域M-多项式(NM-多项式)指标,这些指标不仅计数原子的自身连接数,还概括其邻居的连通性。更丰富的描述捕捉到诸如分子分支程度、环融合方式以及氧或氮原子在骨架中的位置等细微差别。这些特征反过来影响分子间的黏附强度、刚性以及电子在电场下的响应——这些都是决定重要物理化学性质的因素。
在真实的抗癌药物上检验想法
为了将数学方法扎根于现实,作者首先为两种知名抗癌药物米托蒽醌(Mitoxantrone)和多柔比星(Doxorubicin)计算了NM-多项式指标。两者都是用于化疗的复杂多环分子。通过将它们的详细化学结构图转换为分子图再到NM-多项式指标,作者展示了该方法如何系统地追踪这些分子在不同“尺寸”下的结构变化。随后,他们用Python编写程序自动化该过程,该程序接收分子的连通性(以邻接矩阵形式)并瞬时返回完整指标集,最大限度减少人为错误并加快手工计算十分繁琐的工作。 
训练机器读取分子指纹
接下来,研究人员将范围扩展到45种多环药物的更大集合,其中包括对乙酰氨基酚、布洛芬及若干现代靶向治疗药物等常见名称。对每种药物,他们汇总了九个NM-多项式指标和九个实测性质:复杂度、沸点、汽化焓、闪点、摩尔折射率、极化率、表面张力、摩尔体积和折射率。然后他们训练了几种机器学习风格的回归模型——线性、岭回归、套索(Lasso)和弹性网(Elastic Net)——学习指标组合如何映射到各个性质。整个过程中采用了严格的统计防护措施:去除冗余输入、变量标准化、在80%数据上重复交叉验证,并在未接触的20%上测试最终模型。
数字揭示了什么
模型表明,NM-多项式指标对与分子堆积和相互作用相关的性质尤其有力。对于沸点、汽化焓、闪点、摩尔折射率、极化率和摩尔体积,最佳模型达到很高的相关分数,说明预测值与实验值高度一致。正则化方法(如岭回归和弹性网)通常表现最佳,这表明适度约束模型有助于其聚焦于指标中最具信息量的部分。相关性热图也证实,若干指标——尤其与整体连通性和“邻域丰富度”相关的指标——在这45种药物中与这些性质强且一致地相关。
局限与改进空间
并非所有性质都容易预测。折射率(描述光进入材料时的折弯程度)较难预测:模型很难超越简单平均值,NM-多项式指标与其仅表现出弱相关性。表面张力的预测程度处于中等,但不如其他性状强。这些差距提示某些行为依赖于二维连通性之外的特征,例如三维构型或细微的电子效应。作者建议未来工作可将NM-多项式指标与量子化学或三维描述符相结合,以弥合这一鸿沟。
这对药物设计的意义
通俗地说,研究表明,精巧但结构良好的数学能够将分子的静态草图转化为对其实验室行为的惊人准确预测。对于许多重要性质——例如难易沸腾、体积大小或电子易位性——NM-多项式方法结合现代回归技术,与使用更简单指标或较小数据集的早期方法相当或更胜一筹。虽然它尚不能完全替代实验,但它为药物设计者提供了更快的筛选工具:通过计算基于图的指纹,他们可以在早期估算关键物理化学性质,集中实验室工作于最有前景的候选物,并更高效地探索化学空间。
引用: Tawhari, Q.M., Naeem, M., Koam, A.N.A. et al. Mathematical Modeling and Computation of NM-Polynomial Indices for Physicochemical Properties Prediction. Sci Rep 16, 8136 (2026). https://doi.org/10.1038/s41598-026-39562-9
关键词: 化学图论, 药物性质预测, 分子拓扑, 化学中的机器学习, 物理化学描述符