Clear Sky Science · zh

基于序列的生成式人工智能设计多功能色氨酸合酶

2026-01-14 · 返回目录

用人工智能教酶学新把戏

现代社会依赖于分子——药物、材料和特种化学品——这些通常通过高能耗、污染严重的工艺制造。天然的催化剂——酶，能够以更清洁、更高效的方式完成类似任务，但为新的工业用途找到或构建合适的酶既缓慢又不确定。本研究表明，生成式人工智能——与写作聊天机器人相同类别的技术——能够用来设计全新的酶，这些酶不仅在实验室中表现良好，有时甚至优于经过长期进化和多年工程优化所得的最佳酶。

酶为何对日常生活重要

酶是微小的蛋白质机器，加速细胞内的化学反应。化学家已经学会将它们改造用于生产药物、食品成分和其他有价值的产物，所需能量和有毒试剂通常比传统化学少。问题在于，每一种新应用通常需要性能恰到好处的酶——能够接受特定的底物、耐受工艺条件并产生高产率。传统的“定向进化”通过制造并测试大量突变体、代际改良来提升酶的性能。这种方法有效，但依赖合适的起始酶，并可能需要数月乃至数年的试错，使许多有用的反应未被探索。

让语言模型“写”DNA

研究者转向了一种基因组尺度的语言模型，称为 GenSLM，它以学习 DNA 中的模式，类似语言模型学习文本的语法和风格。与直接处理已成型的蛋白序列不同，GenSLM 读写三联密码子形式的 DNA，模仿细胞将基因翻译为蛋白的方式。团队首先用数万条天然基因微调了 GenSLM，目标是一个特别复杂的酶亚基，称为 TrpB，它参与合成氨基酸色氨酸。随后他们让模型生成数千条全新的 trpB 基因。简单的计算过滤去除了过短或过长、可能无法正确折叠或与已知天然酶几乎相同的序列，最终留下 105 个用于在细菌中实验测试的多样候选序列。

从计算设计到可用催化剂

当这 105 个 AI 设计的 TrpB 酶在大肠杆菌（E. coli）中表达时，许多酶能够正确折叠并大量产生。数十种能够执行它们的主要功能：将吲哚和天然伴侣氨基酸丝氨酸转化为色氨酸。有些在较高温度下也能稳健工作，尽管没有专门针对耐热性进行设计。在并行测试中，一部分 GenSLM‑TrpB 的表现可与一个经过多年艰苦进化并能在 75°C 自主发挥功能的基准酶相匹敌甚至超越。一个突出设计（编号 230）在室温和高温下均能产生比该工业基准更多的色氨酸，表明仅以序列数据训练的模型能够直接达到顶级性能。

超越自然的全新灵活性

团队随后用一组非天然底物对这些酶进行了挑战——吲哚衍生物、另一种类似醇的伴侣以及一种用于药物制造的氟代化合物。天然的 TrpB 通常较为挑剔：强烈偏好其天然底物，对这些替代物的活性很低。令人惊讶的是，AI 生成的酶往往更具“冒险性”。对于每一种测试的非天然底物，至少有一个 GenSLM 设计显示出可测量的活性，且许多表现优于天然酶。再次突出的是变体 230，它能转化所有七种替代底物，产率从适中到几近完全不等，显示出在该酶家族中前所未见的广泛“多底物性”。然而，当研究者将 230 与其最近的天然近亲（在约 400 个氨基酸位点中仅有 78 处不同）比较时发现，尽管其整体结构与关键活性位点残基几乎相同，天然酶却不具备这种多样性。

这对未来绿色化学意味着什么

对非专业读者而言，关键信息是：仅以现有 DNA 序列训练的 AI 模型能够想象出自然未曾尝试但现实可行的新酶，其中一些成为比我们当前使用的酶更好的化学工具。这些 AI 设计的 TrpB 变体保留了天然同源体的基本形状和功能，同时获得了处理多种起始物料的罕见能力。这种灵活性可能显著减少发现基于酶的合成路线（用于新药物和其他产品）所需的实验工作量。随着设计、DNA 合成和测试变得更快更便宜，类似的生成模型或能将酶发现从缓慢的寻宝过程转变为快速、常规的设计任务，推动更多工业化学转向更清洁的酶驱动工艺。

引用: Lambert, T., Tavakoli, A., Dharuman, G. et al. Sequence-based generative AI design of versatile tryptophan synthases. Nat Commun 17, 1680 (2026). https://doi.org/10.1038/s41467-026-68384-6

关键词: 酶工程, 生成式人工智能, 蛋白质设计, 色氨酸合酶, 生物催化