Clear Sky Science · zh
具有商业价值的竹子Bambusa tulda Roxb的基因组测序、de novo组装与注释
一种生长快速、潜力巨大的禾本植物
竹子看起来像一种普通的园艺植物,但实际上它是用于建筑、造纸甚至未来生物燃料的强大天然资源。一个广泛栽培的物种Bambusa tulda(孟加拉竹)生长迅速,能积累大量的木质物质,而且很少开花。直到现在,科学家们仍缺乏该物种完整的“说明书”。本文描述了研究人员如何解码并组织B. tulda的整个DNA序列,创建了一个基础资源,有助于改良用于工业、保护和气候友好技术的竹子。
为何要解析竹子的DNA?
Bambusa tulda广泛分布于印度次大陆和东南亚部分地区,其坚固的竹秆(茎)被用于乡村建筑、家具和手工艺品。它也作为造纸原料和可再生能源的来源引起关注。然而B. tulda表现出一些令人困惑的特性:它能非常快速地生长,积累大量坚韧的木质物质,然后大约等待50年才开花,有时一个地区的所有植株会同时开花。在没有完整基因组序列的情况下,科学家们只能猜测哪些基因控制这些性状。通过读取并组装其DNA,作者旨在建立一个参考图谱,供未来研究者研究生长、开花、抗病性等问题使用。

测量并读取一个巨大的基因组
团队首先需要了解B. tulda基因组的大小。利用一种称为流式细胞术的技术,他们将B. tulda叶细胞的DNA含量与番茄和玉米这两种基因组大小已知的植物进行比较。这提示其二倍体基因组大小约为30亿个DNA“字母”。随后他们使用基于短DNA片段重叠(k-mer分析)的第二种独立方法,估计出略小的约23.4亿个字母,并揭示基因组中大量重复序列且可能存在重复拷贝。有了这些测量结果,他们从幼叶中提取了非常长且高质量的DNA,并使用先进的PacBio HiFi技术进行测序,生成了超过1160亿个碱基的原始数据——足以将基因组多次重读。
拼凑竹子的基因蓝图
将数百万条DNA读段转化为有序基因组就像在没有封面图片的情况下拼装一个巨大的拼图。研究人员使用专门的软件构建了一个合并的主要组装体以及两个独立的单倍型,反映了来自两个亲本的基因组拷贝。在去除重复和来自细胞器的片段后,他们得到一个精简的“单倍体”组装体,由43个大型片段组成,覆盖约13.7亿个碱基。这些片段归入三个亚基因组,标记为A、B和C,与B. tulda复杂的多倍体起源相一致。一项广泛使用的质量测试(BUSCO)显示,大约99%的预期植物基因存在且完整,这表明该组装在完整性和可靠性方面可供后续研究使用。
基因、重复序列与进化线索
基因组组装完成后,下一步是识别其功能部分。通过结合三类证据——来自DNA序列本身的预测、与其他竹子物种基因的相似性以及来自活跃表达基因的RNA数据,团队注释了56,890个蛋白编码基因,这些基因约占基因组的五分之一。他们还整理了大量非编码RNA,包括一千多个支持蛋白质合成的转运RNA和核糖体RNA基因。显著的是,约三分之二的基因组由重复元件构成,特别是那些能够复制并移动的移动DNA片段。这些重复序列有助于解释早期大小估计为何存在差异,并指出了动态的进化历史。将十二种其他竹子物种的蛋白家族与玉米和香蕉等亲缘物种进行比较,将B. tulda明确归入古热带木本竹类、具有六倍体背景的群体,证实其基因组由多重祖先拷贝构成。

为未来竹子研究奠定新基础
对非专业读者来说,关键成果是B. tulda现在拥有了高质量的参考基因组——一本索引化、可搜索的DNA蓝图。该资源将使科学家能够定位控制快速生长、木质化和延迟开花的基因,并将其与其他禾草中的相应基因进行比较。它还将支持育种或基因改造竹子品种的努力,使其更适合建筑、造纸或能源用途,同时保护天然种群。简言之,通过绘制这一商业重要竹种的遗传版图,这项研究为更智能地利用这种世界上最通用植物之一奠定了基础。
引用: Kundu, S., Rupp, O., Dey, S. et al. Genome sequencing, de novo assembly and annotation of the commercially important bamboo, Bambusa tulda Roxb. Sci Data 13, 175 (2026). https://doi.org/10.1038/s41597-026-06679-5
关键词: 竹子基因组, Bambusa tulda, 植物遗传学, 木本禾草, 可再生生物材料