Clear Sky Science · zh

使用多组学机器学习与比较生物信息学预测能在有氧条件下固氮的FOX基因候选者

· 返回目录

为何把空气变成植物养分至关重要

现代农业在很大程度上依赖工业化肥,这些化肥是通过消耗大量化石燃料将空气中的氮强制转化为可利用形式制成的。这一过程养活了数十亿人,但也推动了气候排放和水体污染。然而在自然界中,某些微生物能用阳光并以更少的能量悄然完成相同的化学转换。本文探讨如何解析并编目使一种蓝绿藻在产生氧气的同时仍能固氮的基因——正常情况下氧气会抑制这一化学反应。理解这些基因可能为能够自我施肥的作物和工业微生物指明方向。

微小细胞内的平衡艺术

氮气占空气的大部分,但植物和动物不能直接利用它。专门的微生物依赖一种称为氮酶的酶将氮气转化为氨,这是生命可以利用的形式。氮酶对氧极为敏感,氧会破坏它。然而一些蓝绿藻,包括Anabaena 7120这种物种,在同一菌丝中既进行产氧光合又进行固氮。它们通过形成称为异形细胞的特殊细胞来维持氮酶所需的低氧环境。除核心氮酶基因外,构建保护性细胞壁、控制内部化学环境并调配电子与养分还需要许多辅助基因。那些在有氧条件下丧失后不能以氮气为氮源生长的基因被称为FOX基因,目前已知的仅占一小部分。

Figure 1
Figure 1.

教计算机识别缺失的固氮基因

作者们着手利用生物学测量与机器学习的混合方法,在整个Anabaena 7120基因组中预测新的FOX基因候选者。他们构建了一个“多组学”数据集,追踪在培养基中移除可用氮后每个基因的反应,这一刺激会促使异形细胞形成。数据包括RNA水平的时间序列测量、蛋白质丰度的变化、驱动转录的DNA调控区特征、每个基因在染色体上的物理邻近关系,以及每个基因在固氮与非固氮蓝绿藻中保守程度的差异。接着他们将68个已被证明为FOX的基因标注为正例,并选取了835个广泛保守且非必需的基因作为非FOX代理组。

模型的表现与所得见解

利用这些带标签的样本,团队训练了三类模型——逻辑回归、随机森林和XGBoost,并在留出的基因上反复测试。三种模型都能可靠地将已知的FOX基因排在代理非FOX基因之上,最佳模型的表现可与其他基因必需性预测器相媲美。更重要的是,这些模型不是黑箱:研究者使用一种称为SHAP的技术来观察哪些特征将基因推向或远离FOX样式的预测。FOX基因往往在移除氮后较晚被强烈激活,激活前活性较低,常与其他固氮基因成簇出现,并且在已知固氮物种中比在不固氮的近缘物种中更为保守。相反,那些普遍与非固氮蓝绿藻共享的基因,或排列在与管家功能相关的特定启动子布局中的基因,则不太可能是FOX。

新的基因候选者与面向工程师的设计工具

基于这些见解,作者为基因组中的每个基因生成了概率评分,并将其作为排序依据而非字面上的几率。在排名靠前的候选者中,有嵌入异形细胞包膜区域的基因、与氧化还原平衡和电子传递相关的基因,以及在其他生物中已知有助于组装或支持氮酶但尚未在Anabaena中被分类为FOX的若干因子。一些高分基因已有独立的实验证据暗示其重要性,为该方法增添可信度。为使结果对合成生物学更具实用性,团队还构建了一个网络工具,帮助用户在所选DNA大小限制内挑选紧凑的候选基因集合——大致相当于已被转移到其他蓝绿藻的规模——可选择简单的排名顺序或考虑大小的贪心策略。

Figure 2
Figure 2.

从更聪明的预测到更聪明的作物

对普通读者而言,核心信息是这项工作将混乱的全基因组搜索转化为一份聚焦的可能参与者短名单,这些参与者使产氧微生物仍能固氮。研究表明,基因何时启动、它们如何与邻近基因联结以及哪些物种共同保留或舍弃它们的模式,共同构成了有氧固氮的可识别特征。尽管每个候选基因仍需实验验证,但这些排序列表和交互式应用为研究者系统性地填补缺失拼图提供了路线图。从长远看,这一路线图可能指导将稳健且自含的固氮系统装备到作物或工业微生物中的努力,从而减少对耗能肥料工厂的依赖,帮助农业对地球的影响更为轻缓。

引用: Young, J., Gu, L. & Zhou, R. Predicting FOX gene candidates for oxic nitrogen fixation using multi-omic machine learning and comparative bioinformatics. Sci Rep 16, 11412 (2026). https://doi.org/10.1038/s41598-026-41873-w

关键词: 固氮, 蓝绿藻, 机器学习, 合成生物学, 异形细胞