Clear Sky Science · zh
用于 CO₂ 固定途径预测的化能自养基因组和标志基因的整合资源
有助于平衡地球碳收支的微生物
隐藏在土壤、海洋和极端环境中的某些微生物,能够以二氧化碳(CO₂)为主要碳源合成自身生物质。这些微小的“化学家”对维持地球碳循环的平衡至关重要,并可能为工业 CO₂ 捕集提供新思路。然而,直到现在,科学家们还缺乏一种简单可靠的方法,仅通过查看微生物的 DNA 就能判断其采用哪种 CO₂ 固定策略。本研究介绍了一个经过整理的基因目录和一个名为 AutoFixMark 的新计算工具,旨在填补这一空白。
把空气变成生物质的多条路线
并非所有固定 CO₂ 的生物都采用相同的方式。微生物已经进化出至少七条天然途径,将 CO₂ 转化为有机物质。其中一些,比如植物和许多细菌常见的卡尔文—本森—巴沙姆循环(Calvin–Benson–Bassham 周期),为人所熟知;而另一些,例如在 2020 年才发现的还原甘氨酸途径,仍然了解不多。这些途径分布在生命树的许多分支上,并且常常重复利用相似的酶,这使得仅凭基因组序列将它们区分开来出奇地困难。现有的软件可以预测广泛的代谢能力,但尚未针对精确识别具体 CO₂ 固定路线进行优化或充分测试。

构建清洁的 CO₂ 固定微生物参考图谱
研究人员首先组建了两个经过严格检查的基因组集合。首先,他们挑选了 15 种研究透彻、其 CO₂ 固定途径已被详细解析的微生物。这些参考生物体跨越若干细菌和古菌类群,作为定义每条途径真正特征性关键酶的蓝本。接着,他们创建了一个由 347 个化能自养基因组组成的基准集——这些微生物从无机化学物质获取能量并以 CO₂ 构建生物质。该较大集合中的每个基因组都通过文献人工关联到特定的 CO₂ 固定途径,为预测方法的测试提供了坚实的真实数据集。
用标志基因和简单规则替代黑箱方法
研究团队利用 15 个参考基因组,为七条 CO₂ 固定途径各自鉴定了“标志基因”,并将它们映射到标准化的 KEGG Orthology(KO)标识符。研究者没有依赖晦涩的机器学习,而是编码了关于这些标志如何组合的透明规则。某些反应可由若干可替代酶中的任意一个执行,这通过“one_of”规则处理;另一些依赖多亚基复合体,必须“all_of”包含定义好的 KO 集合。对于还原甘氨酸途径——其全部组成部分尚未完全明了——工具采用“at_least”规则,要求至少存在一定数量的亚基。这些逻辑规则被存储在一个机器可读的 JSON 文件中,构成 AutoFixMark 的核心知识库。
轻量级工具优于既有软件
AutoFixMark 本身是一个小型基于规则的 Python 程序。它以微生物基因组中基因对应的 KO ID 列表为输入(通常由另一个工具 KofamScan 生成),然后检查七条途径中哪些标志规则被满足。作者将 AutoFixMark 与两个广泛使用的代谢注释工具 METABOLIC 和 gapseq 在 347 个基因组的基准集中进行了比较。三种工具在卡尔文循环、还原三羧酸循环和伍德—隆格达尔(Wood–Ljungdahl)途径等经典路径上表现良好。然而,对于较新或较少见的途径,如 3-羟基丙酸/4-羟基丁酸循环、二羧酸/4-羟基丁酸循环和还原甘氨酸途径(其中一些竞品软件甚至未覆盖),AutoFixMark 明显优于其他工具。

这些结果对气候与生态研究的意义
经过整理的基因集、AutoFixMark 程序和完整的基准基因组集合均已公开可用。这意味着研究者现在可以筛查分离的微生物和宏基因组组装基因组,查看它们在基因层面具备使用哪些 CO₂ 固定策略。研究者们强调,AutoFixMark 预测的是基因潜能,而不是某条途径在真实环境中是否处于活跃状态。许多这些生化路线可能根据细胞的能量平衡反向运行。即便如此,拥有一种稳健且透明的方法来识别 CO₂ 固定微生物,将有助于科学家绘制生命从大气中抽取碳的空间与方式、指导对新兴途径的实验研究,并支持未来基于 CO₂ 的生物技术设计。
引用: Kawashima, S., Okabeppu, Y., Miyazawa, S. et al. A curated resource of chemolithoautotrophic genomes and marker genes for CO₂ fixation pathway prediction. Sci Data 13, 121 (2026). https://doi.org/10.1038/s41597-026-06655-z
关键词: 微生物碳固定, 自养代谢, 基因组注释, CO2 捕获, 宏基因组学