Clear Sky Science · zh

MAMMAL - 分子对齐的多模态架构与语言，用于生物医学发现

2026-05-04 · 返回目录

为什么更智能的药物发现很重要

发现新药既缓慢又充满风险，而且花费极高。大多数候选药物在临床试验中仍会失败，常常是在多年努力之后。同时，生物学实验室现在产生了大量关于基因、蛋白质、细胞和化学物质的数据。本文介绍了MAMMAL，一种新型人工智能系统，能够同时从这些不同类型的数据中学习。通过连接分子、细胞和药物之间的模式，它旨在帮助科学家更好地选择靶点、设计更佳药物，并在早期避免代价高昂的盲路。

一个“脑”处理多种生物学数据

当今生物医学领域的AI工具往往是专才：一种模型处理蛋白质序列，另一种处理小分子，还有一种仅查看基因活性。MAMMAL采用了不同的路径。它将蛋白质、抗体、小分子药物和基因表达谱视为不同类型的“句子”，所有这些都可以被同一个模型读取。为此，研究人员构建了一种灵活的方法，将每种数据类型转换为共享的序列格式，并在大约二十亿个来自公共蛋白质、抗体、化学和细胞级数据集的示例上训练了一个基于Transformer的大型网络——在理念上类似于现代语言模型。

学习药物与细胞的语言

MAMMAL既被设计用于理解生物信息，也能生成生物信息。它可以对结合强度或药物效力等数值进行分类、排序或预测，也可以创造新序列，例如建议新的抗体片段。一个关键特性是它不仅识别符号；它还能直接输入和输出数值，例如来自实验测定的数值。这有助于它推理药物与蛋白质结合的强度，或癌细胞对治疗的反应。所有这些任务都被框定为一种核心活动的变体：将一种序列转换为另一种序列，就像不同语言之间的翻译。

在药物开发流程中测试模型

为了检验这种统一方法是否真正有益，作者对经过微调的MAMMAL在模拟药物发现真实步骤的十一个不同基准上进行了测试。这些测试包括从单细胞基因表达数据识别细胞类型、预测小分子是否能穿过血脑屏障或引起毒性副作用、评估癌细胞对各种药物的反应，以及预测蛋白质彼此或与小分子药物的结合强度。MAMMAL在十一项测试中有九项达到了或超过了已报道的最佳表现，经常胜过那些为单一数据类型专门调优的高专长模型。

设计抗体并在本领域胜过结构模型

一些最引人注目的结果来自基于蛋白质的任务。在抗体“填补”挑战中——目标是填补那些与靶标实际接触的高度可变片段——MAMMAL比早期方法更频繁地恢复出正确的氨基酸，尤其是在抗体结合位点那 notoriously 困难的中心区域。团队还测试了MAMMAL是否能区分有结合活性和无结合活性的抗体，并将其与AlphaFold 3进行了比较，后者是一个结构预测工具，其置信度分数可被用作对结合的间接估计。在五个七个测试靶点中，包括与癌症相关的大型且柔性的蛋白，MAMMAL的结合预测明显更准确，尽管它仅看到序列而没有3D结构信息。

现实世界影响的迹象

超越基准测试，研究人员还检查了模型的预测是否与实验室实际相符。他们考察了四种抗癌药物，包括主要获批用于血液癌的卡非佐米（Carfilzomib）。MAMMAL正确地预测了这些药物在数百个细胞系中的相对效力，这一排序在后续的针对性实验中得到证实。该发现暗示这些药物在实体瘤中可能有比目前认识更广泛的用途，值得进一步检测。该模型在旨在预测抗体对流感病毒及其他靶点活性的合作研究中也显示出潜力。

这对未来药物意味着什么

简单来说，MAMMAL像一个用于生物学的多语言阅读器和写作者，能够在单一框架内连接基因、蛋白质和化学物质层面的信息。它在多项任务上的强劲表现表明，此类统一模型可以成为AI辅助“虚拟细胞”的核心组成部分，帮助科学家在进入实验室之前在计算机中探索治疗方案。尽管它不能取代实验——仍需谨慎验证——但它可以缩小搜索空间、突出令人惊讶的可能性，并使从概念到获批药物的漫长过程变得更快、更高效一些。

引用: Shoshan, Y., Raboh, M., Ozery-Flato, M. et al. MAMMAL - Molecular Aligned Multi-Modal Architecture and Language for biomedical discovery. npj Drug Discov. 3, 14 (2026). https://doi.org/10.1038/s44386-026-00047-4

关键词: 由人工智能驱动的药物发现, 多模态生物医学模型, 抗体设计, 蛋白质–药物相互作用, 基因表达谱分析