Clear Sky Science · zh

两株Prototheca wickerhamii菌株的高质量基因组组装

· 返回目录

这种微小藻类为何与我们的健康息息相关

大多数人把藻类想象成池塘表面的无害绿色浮渣,依靠阳光生长。但某些藻类的近亲已经失去了绿色色素,成为能够感染人和动物的隐匿病原体。其中一个罪魁,Prototheca wickerhamii,会引起皮肤、软组织以及偶发的深部器官持续性、顽固性感染。医生之所以难以应对,部分原因在于我们对其基本生物学知之甚少。本研究提供了来自两株临床分离菌的高质量基因组蓝图,为研究人员提供了详细的“零件清单”,有助于揭示其如何在机体内生存以及如何改进诊断和治疗。

Figure 1
Figure 1.

隐藏在明处的无色近亲

Prototheca wickerhamii 隶属于一类鲜为人知的“无色”微藻,这类生物已不再进行光合作用。它们不再像绿色亲缘种那样依赖阳光,而是在潮湿环境中生存,有时甚至寄生于温血宿主。在过去二十年中,因这些生物引起的感染报告有所增加,尤其是在免疫受损的人群和伴侣动物中。然而,由于常规实验室检测可能漏检或误判,实际患病负担很可能被低估。早期研究测序了一株参考菌的基因组,发现其携带许多与致病性真菌中已知毒力因子相似的基因,提示其基因组可能已被塑造成更适合在人体内生存的状态。

采集并读取微生物的DNA

在这项新研究中,科学家聚焦于两株临床分离菌,命名为 Pw26 和 PwS1,均来自中国不同城市的患者。他们首先在标准培养基上纯化培养并确认培养物未受其它微生物污染。随后提取高质量 DNA,并采用一种现代长读长技术 PacBio HiFi 测序。与将 DNA 切割成极短片段的旧方法不同,HiFi 读长可一次跨越数万碱基且具有较高准确性,使得重建整条染色体并减少缺口变得更容易。研究者为 Pw26 生成了超过十五亿五千万碱基的序列,为 PwS1 则生成了超过八亿碱基,提供了对两株基因组的深度覆盖。

构建完整基因组并发现重复模式

研究团队使用专门的组装软件将长读长拼接成表示染色体的连续序列。最终基因组大小约为 Pw26 的 1,780 万和 PwS1 的 1,740 万碱基——与之前研究的菌株相似但略大。每株的组装仅分为 14 到 17 段,统计学检查显示大多数预期的核心基因均存在,表明组装较为完整。随后,团队搜索了重复 DNA 元件,这些重复序列能影响基因组的演化。Pw26 中约有 6% 的序列为重复序列,PwS1 约为 4%,以一种称为长末端重复(LTR)的类别为主,这类重复在植物和藻类基因组中常见。两株在重复序列数量和类型上的细微差异,可能反映了它们对不同环境或宿主的适应性差异。

基因揭示该微生物的生活方式

在屏蔽掉重复序列后,研究者结合三种方法预测蛋白编码基因:基于基因结构训练的计算模型、与相关藻类和其他 Prototheca 菌株的已知蛋白比较,以及与先前收集的 RNA 数据比对。每个基因组大约预测出 6,400 个基因。随后,他们使用两种广泛使用的功能注释数据库对这些基因进行了注释。一种是基因本体论(Gene Ontology),按基因在细胞中执行的任务对其分组;另一种是 KEGG 数据库,将基因映射到代谢通路。两株均含有大量参与能量产生、营养物质分解与合成以及细胞过程调控的基因。PwS1 在脂质相关通路和信号传导方面显示出更多侧重,这与早期发现相呼应:该株呈黏液状的异常表型及较低毒性可能与其表面特性和代谢改变有关。

Figure 2
Figure 2.

验证准确性并比较两株差异

为确保组装可靠,团队将原始长读长序列重新比对回各自的组装基因组。超过 93% 的读长能比对回去且覆盖均匀,碱基组成模式也未显示污染迹象。另一项质量检查工具 BUSCO 证实,两株均保留并完整了超过 86% 的一组标准保守藻类基因。最后,使用全基因组比对工具对齐两株基因组时,它们的 DNA 段几乎一一对应,表明高度相似,支持组装真实反映了其染色体结构。

对未来诊断和治疗的意义

对非专业读者来说,主要结论是:我们现在拥有了两株致病性 Prototheca wickerhamii 的详细且可靠的 DNA 地图。这些地图本身不能治愈感染,但为提出更精准的问题奠定了基础:哪些基因使该微生物能逃避免疫系统,哪些通路可被现有药物所靶向,不同菌株在毒力和药物反应上如何差异?由于数据已公开,全球实验室可以利用这些资源设计更好的诊断检测,从“一个健康”(One Health)角度追踪人畜共患的暴发,并最终为这一少见但具有挑战性的病原体制定更精确的治疗策略。

引用: Fang, L., Guo, J., Ning, Q. et al. High-Quality Genome Assemblies of Two Prototheca wickerhamii Strains. Sci Data 13, 633 (2026). https://doi.org/10.1038/s41597-026-06916-x

关键词: Prototheca wickerhamii, 基因组组装, 机会性感染, 长读长测序, 病原体基因组学