Clear Sky Science · zh

基于序列的生成式人工智能设计多功能色氨酸合酶

· 返回目录

用人工智能教酶学新把戏

现代社会依赖于分子——药物、材料和特种化学品——这些通常通过高能耗、污染严重的工艺制造。天然的催化剂——酶,能够以更清洁、更高效的方式完成类似任务,但为新的工业用途找到或构建合适的酶既缓慢又不确定。本研究表明,生成式人工智能——与写作聊天机器人相同类别的技术——能够用来设计全新的酶,这些酶不仅在实验室中表现良好,有时甚至优于经过长期进化和多年工程优化所得的最佳酶。

酶为何对日常生活重要

酶是微小的蛋白质机器,加速细胞内的化学反应。化学家已经学会将它们改造用于生产药物、食品成分和其他有价值的产物,所需能量和有毒试剂通常比传统化学少。问题在于,每一种新应用通常需要性能恰到好处的酶——能够接受特定的底物、耐受工艺条件并产生高产率。传统的“定向进化”通过制造并测试大量突变体、代际改良来提升酶的性能。这种方法有效,但依赖合适的起始酶,并可能需要数月乃至数年的试错,使许多有用的反应未被探索。

Figure 1
Figure 1.

让语言模型“写”DNA

研究者转向了一种基因组尺度的语言模型,称为 GenSLM,它以学习 DNA 中的模式,类似语言模型学习文本的语法和风格。与直接处理已成型的蛋白序列不同,GenSLM 读写三联密码子形式的 DNA,模仿细胞将基因翻译为蛋白的方式。团队首先用数万条天然基因微调了 GenSLM,目标是一个特别复杂的酶亚基,称为 TrpB,它参与合成氨基酸色氨酸。随后他们让模型生成数千条全新的 trpB 基因。简单的计算过滤去除了过短或过长、可能无法正确折叠或与已知天然酶几乎相同的序列,最终留下 105 个用于在细菌中实验测试的多样候选序列。

从计算设计到可用催化剂

当这 105 个 AI 设计的 TrpB 酶在大肠杆菌(E. coli)中表达时,许多酶能够正确折叠并大量产生。数十种能够执行它们的主要功能:将吲哚和天然伴侣氨基酸丝氨酸转化为色氨酸。有些在较高温度下也能稳健工作,尽管没有专门针对耐热性进行设计。在并行测试中,一部分 GenSLM‑TrpB 的表现可与一个经过多年艰苦进化并能在 75°C 自主发挥功能的基准酶相匹敌甚至超越。一个突出设计(编号 230)在室温和高温下均能产生比该工业基准更多的色氨酸,表明仅以序列数据训练的模型能够直接达到顶级性能。

超越自然的全新灵活性

团队随后用一组非天然底物对这些酶进行了挑战——吲哚衍生物、另一种类似醇的伴侣以及一种用于药物制造的氟代化合物。天然的 TrpB 通常较为挑剔:强烈偏好其天然底物,对这些替代物的活性很低。令人惊讶的是,AI 生成的酶往往更具“冒险性”。对于每一种测试的非天然底物,至少有一个 GenSLM 设计显示出可测量的活性,且许多表现优于天然酶。再次突出的是变体 230,它能转化所有七种替代底物,产率从适中到几近完全不等,显示出在该酶家族中前所未见的广泛“多底物性”。然而,当研究者将 230 与其最近的天然近亲(在约 400 个氨基酸位点中仅有 78 处不同)比较时发现,尽管其整体结构与关键活性位点残基几乎相同,天然酶却不具备这种多样性。

Figure 2
Figure 2.

这对未来绿色化学意味着什么

对非专业读者而言,关键信息是:仅以现有 DNA 序列训练的 AI 模型能够想象出自然未曾尝试但现实可行的新酶,其中一些成为比我们当前使用的酶更好的化学工具。这些 AI 设计的 TrpB 变体保留了天然同源体的基本形状和功能,同时获得了处理多种起始物料的罕见能力。这种灵活性可能显著减少发现基于酶的合成路线(用于新药物和其他产品)所需的实验工作量。随着设计、DNA 合成和测试变得更快更便宜,类似的生成模型或能将酶发现从缓慢的寻宝过程转变为快速、常规的设计任务,推动更多工业化学转向更清洁的酶驱动工艺。

引用: Lambert, T., Tavakoli, A., Dharuman, G. et al. Sequence-based generative AI design of versatile tryptophan synthases. Nat Commun 17, 1680 (2026). https://doi.org/10.1038/s41467-026-68384-6

关键词: 酶工程, 生成式人工智能, 蛋白质设计, 色氨酸合酶, 生物催化