Clear Sky Science · zh

基于多路SMILES的代谢模型重建超图推理网络

· 返回目录

填补代谢盲点为何重要

每个活细胞内都有成千上万的微小化学反应,使其得以存活、增长和适应。科学家构建这些反应的大规模“地图”,用于设计更高效的微生物以生产燃料、研究肠道菌群如何影响健康,甚至寻找新的药物靶点。但这些地图中常常缺失许多片段:一些几乎可以肯定在细胞中发生的反应却未出现在我们的模型中。本文介绍了MuSHIN,一种新的人工智能系统,能够帮助填补这些盲点,使我们的代谢图谱更清晰、更可靠、也更有用。

Figure 1
Figure 1.

构建更好的细胞化学地图

现代基因组规模代谢模型旨在列出一个生物体几乎可以执行的每一种化学反应。借助这些模型,研究人员可以模拟微生物在不同环境下如何生长、分泌哪些副产物,以及哪些基因对生存至关重要。然而,这些模型往往并不完整。生化知识的空白、基因组注释的错误以及实验数据的有限性都会在网络中留下空洞,导致模拟的细胞有时无法生长、不能生成已知的发酵产物,或错误预测哪些基因是必需的。现有的“填补缺口”工具试图弥合这些空白,但很多方法要么高度依赖特定条件下的实验数据,要么对网络进行过度简化,从而错过真实反应中涉及的复杂多分子相互作用。

从简单连结到丰富的超连接

MuSHIN通过更忠实地表示代谢来解决这一问题。它不把每个反应视为两个代谢物之间的简单二元连接,而是使用超图,在其中一个连接可以同时关联任意数量的分子。这反映了真实的生物化学:一项反应常常将多个底物同时转化为多个产物。MuSHIN随后用化学“语义”来丰富该结构。它将每个代谢物和反应(用SMILES字符串描述分子结构)转换为高维数值指纹,采用两个基于Transformer的化学模型ChemBERTa和RXNFP。借助这些指纹,系统不仅能推理网络中谁与谁相连,还能理解这些分子和反应在化学层面上的特征。

学习引擎如何工作

在构建好超图和化学指纹后,MuSHIN学习区分真实反应与伪造反应。作者通过取自高质量代谢模型的已知反应构建训练集,然后通过微妙地扰动每个反应的参与者来创建“负例”,在保持总体平衡的同时使化学上不合理。MuSHIN使用双向注意力机制在代谢物节点与反应超边之间来回传递信息,反复细化对两者的内部表示。这一注意力过程帮助模型聚焦于网络中最有信息量的部分和最具辨识力的化学特征。在最后一步,MuSHIN为每个反应打分,输出其为有效反应的可能性,从而作为填补空白的候选。

Figure 2
Figure 2.

对MuSHIN的检验

研究人员在来自两个主要数据库的926个代谢模型上严格测试了MuSHIN,系统性地移除已知反应并要求模型将其恢复。在多项质量衡量指标上,MuSHIN始终优于若干领先的超图和深度学习方法,在某些情况下性能提升约17个百分点。值得注意的是,即使在高达80%的反应被移除的情况下,它仍能保持准确性,显示出在极度不完整网络中的鲁棒性。在另一组实验中,团队将MuSHIN应用于24个涉足发酵的厌氧细菌草案模型。仅向每个生物体添加MuSHIN排名前100的反应,就显著提高了这些模型预测实验中实际观察到的发酵产物(如乙醇、乳酸或甲酸)的能力,而竞争方法则需要添加更多反应才能取得有限的改进。

揭示代谢中的隐蔽通道

仔细分析MuSHIN提出的反应可以看出其预测为何如此有价值。其建议的新增反应中近一半是转运和交换反应——将分子穿过细胞膜或进出建模系统的步骤。这类反应通常被严重低估,但往往决定某一路径是否能承载通量。通过正确恢复这些边界步骤,MuSHIN重新打开被阻断的代谢通路,并在多种物种中恢复缺失的发酵产物。该模型还解决了更复杂的空白,例如通过添加协调的转运蛋白来完成能量生成循环的一个分支,从而恢复某种肠道细菌的琥珀酸产生。

这对生物学和医学意味着什么

对非专业读者而言,核心信息是MuSHIN使我们的虚拟细胞更像真实细胞。通过将更丰富的网络表示与具有化学感知能力的人工智能相结合,它能够发现其他方法忽视的缺失反应,尤其是在研究较少的微生物中。这种提高的准确性可能加速用于生产燃料和化学品的工业菌株设计,优化人类肠道微生物组的模型,并支持对疾病代谢和治疗反应的更精确模拟。随着未来扩展加入基因、调控乃至从未见过的新反应,像MuSHIN这样的工具可能成为将基因组数据转化为可靠、可预测的生命系统蓝图的核心。

引用: Zhao, Y., Chen, Y., Yu, Y. et al. A multi-way SMILES-based hypergraph inference network for metabolic model reconstruction. Commun Biol 9, 531 (2026). https://doi.org/10.1038/s42003-026-09761-1

关键词: 基因组规模代谢模型, 代谢网络重建, 超图神经网络, 系统生物学中的深度学习, 微生物发酵