Clear Sky Science · zh

一种用于药物靶点亲和力预测的元学习与任务自适应方法

2026-03-10 · 返回目录

教计算机挑选更好的药物

发现新药通常意味着要测试数百万种可能的分子，以确定哪些能附着在体内的特定蛋白靶点上。在实验室中完成这项工作既慢又昂贵，即便是当今强大的人工智能工具，在面对只为某一新疾病蛋白提供了为数不多的测量数据时，也可能表现不佳。本文介绍了 AdaMBind，一种学习系统，旨在即使在数据稀缺的情况下，也能对药物与先前未见靶点的结合强度做出可靠预测。

为什么药物—靶点“粘性”很重要

当一种药物起作用时，通常是因为它能锁定特定蛋白并改变该蛋白的功能。这种结合的强度称为亲和力，是将有前景的分子转化为实际疗法的关键因素。传统的实验技术可以非常精确地测量亲和力，但它们依赖专用仪器、专业操作和大量时间。计算机模型承诺能更快地筛选，但大多数现有的深度学习方法默认每个蛋白会有大量示例。在真实的药物发现中，许多有趣的蛋白只有少量已知化合物，因此按常规方式训练的模型往往会对研究充分的靶点过拟合，而在新靶点上表现不佳。

从许多小问题中学习如何学习

AdaMBind 通过元学习来应对这一挑战，有时称为“学习如何学习”。该方法不是把整个数据集当作一个大问题处理，而是将其拆分为许多以单个蛋白为中心的小任务，每个任务包含针对该蛋白测试的所有药物。模型在这些任务上进行训练，从而获得一个内部起点，能够用极少数已知测量快速调整以适应新蛋白。在内部，系统将药物表示为原子与键的图，将蛋白表示为氨基酸序列。独立的神经网络分别处理两侧信息，然后将特征结合以预测结合强度，但关键在于模型如何跨任务进行训练。

从简单课题到困难课题

并非每个任务的信息量都相同。有些蛋白—药物集合噪声较大或异常困难，如果与更干净的任务同等对待，可能会误导训练过程。AdaMBind 增加了一个自适应任务模块，不断根据在一个小的“支持”子集上学习的效果如何转移到保留的“查询”子集来给任务打分。那些在支持与查询集之间产生较低误差且学习方向一致的任务被视为“更容易”和更可靠。该模块为这些任务分配更高的采样权重，使模型先巩固那些可以自信学到的内容，然后逐步纳入更难的任务。这种由易到难的调度类似于人类的学习方式，使最终系统更稳定并且对离群点不那么敏感。

在数据稀缺条件下脱颖而出

作者在三个标准的药物—靶点亲和力数据集——BindingDB、KIBA 和 Davis——上测试了 AdaMBind，采用了每个蛋白慷慨与极少样本两种设置，并使用随机划分或有意选择不相似的测试靶点。在几乎所有条件下，AdaMBind 击败了八种强比较方法，尤其是在仅有五个已知药物—蛋白对可用于适应新靶点时表现突出。额外测试表明，当新蛋白与训练集中只有少量近亲时，其性能仍然强劲，表明模型并非仅仅记忆相似任务，而是在提取广泛有用的模式。一种标签噪声策略（在训练期间对亲和力值进行轻微扰动）通过阻止模型过度依赖可能不完美的测量，进一步提高了鲁棒性。

从基准测试到实际药物线索

为评估其实用价值，团队让 AdaMBind 帮助解决类似真实项目的虚拟筛选问题。在一个具有挑战性的数据集中，只有极小比例的化合物对如 ESR 和 TP53 等靶点真正有活性，该方法能够将许多真实命中推到排名列表的前列，在奖励“早期富集”的评价指标上优于其他模型。随后，他们将 AdaMBind 应用于与白血病相关的蛋白 FLT3，从大型药物数据库中筛选强结合物。在其推荐的顶级候选中出现了化合物 staurosporine。后续的对接模拟和体外激酶实验验证了 staurosporine 对野生型和突变型 FLT3 均具有亚纳摩尔的抑制活性，甚至强于一款已知的临床抑制剂，证明模型的预测能够指向真正有潜力的分子。

为未来的药物发现提供更聪明的起点

通俗地说，AdaMBind 为 AI 系统提供了一种从许多小而不完美的课程中学习关于药物—蛋白结合的良好“直觉”的方式，然后在面对新的、研究不足的靶点时迅速应用这些直觉。通过决定先信任哪些训练任务并且对新蛋白与过去示例的相似程度保持相对不敏感，该方法为在有限数据条件下的虚拟筛选提供了更可靠的指南。尽管还有改进空间——例如整合更丰富的三维信息并朝真正的零数据预测推进——该框架代表了向更快、更灵活和更高数据效率的新药发现迈出的重要一步。

引用: Wan, M., Zhao, Y., Zhang, Y. et al. A meta learning and task adaptive approach for drug target affinity prediction. Nat Commun 17, 3734 (2026). https://doi.org/10.1038/s41467-026-70554-5

关键词: 药物-靶点亲和力预测, 元学习, 虚拟筛选, 少样本学习, FLT3 抑制剂