Clear Sky Science · zh

使用 BRAKER 注释 200 个昆虫基因组以实现跨物种的一致比较

· 返回目录

为什么昆虫基因组很重要

昆虫塑造了我们的世界:它们为作物授粉、传播疾病、循环营养物质,并启发新材料和新技术。如今我们可以读取数千种昆虫的 DNA,但仅有基因组序列还不够。我们还需要一张清晰的图,标出每个基因的位置及其可能的功能。本文描述了一项大规模、标准化的工作,使用名为 VARUS-BRAKER 的自动化流程对 200 种昆虫的基因进行注释,从而大大简化了科学家比较物种并揭示昆虫如何演化出非凡多样性的工作。

未完成基因图谱的问题

在过去二十年里,昆虫基因组测序从约二十种激增到四千多种。然而只有大约十分之一的基因组在公共数据库中具有合适的基因注释。即便存在注释,许多也是多年前用较早的方法和有限的数据生成的。不同研究团队常使用不同的软件和证据,这会产生人为差异:某个基因在一种物种中看似缺失或结构奇怪,可能仅仅因为它是用另一种工具注释的。这种方法拼凑使得直接得出昆虫基因在物种间真实差异的结论存在风险。

Figure 1
Figure 1.

一键式多物种工作流

作者通过构建以 BRAKER3 基因预测管线为核心的自动化工作流来解决这一瓶颈。他们的 VARUS-BRAKER 系统设计为在最简模式下,用户只需提供物种的学名。工作流随后会自动从公共存档下载最佳可用的基因组,收集显示基因表达的匹配 RNA 测序数据,并检索相关物种的蛋白质信息。它会遮蔽重复 DNA、将 RNA 读取序列比对到基因组,并结合 RNA 与蛋白质“线索”来教模型基因可能的起始、终止和剪接位置。像 BUSCO 和 OMArk 这样的质量检查随后评估所得基因集合的完整性与洁净度。

横跨昆虫谱系的广泛考察

使用该系统,团队注释了 200 个被挑选出来以覆盖昆虫主干谱系的基因组,重点是完全变态昆虫(从幼虫到蛹再到成虫具有完全变形的种类)以及多样的近缘类群。他们的样本涵盖 77 个科和 14 个目,包括双翅目、鳞翅目、鞘翅目、膜翅目等的苍蝇、蝴蝶、甲虫、蜜蜂、蚂蚁、蚜虫、蟑螂等。85 个物种在 GenBank 中没有先前的注释。对于每个物种,该工作流预测了编码蛋白的基因,最终得到超过 420 万条蛋白序列。大多数基因组及其预测的蛋白组通过了严格的完整性测试,通常达到了预期核心基因至少 85–95% 的覆盖率,这表明该自动化方法能产出高质量的结果。

Figure 2
Figure 2.

从基因清单到生物学意义

列出基因只是故事的一部分;研究者还需要这些基因可能功能的线索。为此,作者应用了名为 FANTASIA 的功能注释管线,该管线使用现代蛋白质语言模型为每个蛋白分配基因本体(GO)术语——即标准的生物学功能标签。与广泛使用的 InterProScan 工具相比,FANTASIA 注释的蛋白约多出 1.6 倍,同时在两者都能作出预测时仍保持高度一致。团队还将相关基因分组成“正交群”(orthogroups),即具有共同祖先的一组基因,并利用这些群体构建了 200 个物种的进化树。该框架使得研究者可以探问哪些基因在不同昆虫谱系中是共享、丢失或扩增的,并将基因目录与变态发育或幼虫行为等性状联系起来。

可重复使用的资源以促进未来发现

该项目的所有数据——包括基因结构、蛋白序列、功能标签、正交群、物种树和 tRNA 预测——均通过公共仓库免费提供。作者还将完整的 VARUS-BRAKER 工作流以开源代码形式发布,供其他科学家以一致的方式注释新的昆虫基因组,甚至其他动物和植物。对非专业读者而言,关键要点是这项工作将零散的 DNA 序列集合转化为连贯且可比较的昆虫基因图谱。有了这些标准化的图谱,未来的研究能更可靠地揭示昆虫如何演化出飞行、变态发育和生态成功,并能更好地定位与农业、保护和疾病控制相关的基因。

引用: Saenko, S., Hoff, K.J. & Stanke, M. Annotation of 200 Insect Genomes with BRAKER for Consistent Comparisons across Species. Sci Data 13, 288 (2026). https://doi.org/10.1038/s41597-026-06840-0

关键词: 昆虫基因组学, 基因组注释, 比较基因组学, 进化生物学, 生物信息学