Clear Sky Science · zh
一种结合短时离散傅里叶变换与CEEMD并用小波包阈值去噪的外显子预测方法
寻找遗传密码中有用的部分
在每个细胞内部,长串的 DNA 携带着构建维持生命的蛋白质的指令。但只有 DNA 中的某些片段真正编码蛋白质,而大段序列更像标点或背景。本文解决了现代遗传学的一个关键挑战:如何利用借自工程学的智能信号处理工具,在海量原始 DNA 数据中可靠地发现称为外显子的蛋白质编码片段。
为何将信号与噪声分开很重要
人类及其他复杂生物的基因由携带有用信息的外显子和不编码蛋白质的内含子组成。在蛋白质合成过程中,细胞将 DNA 复制为 RNA,然后剪切掉内含子,将外显子拼接成决定蛋白质组成的最终信息。识别外显子的起止位置对于理解基因如何工作、疾病如何产生及如何制定个性化治疗至关重要。传统计算方法高度依赖大量精确标注的训练数据或详尽的生物学模型,而这些在研究不足的物种上往往不可得或容易失败。因此,能够直接在原始 DNA 上工作的、将其视为可分析信号的方法愈发具有吸引力。
将 DNA 转换为信号
在这项研究中,作者将 DNA 当作波形来处理,类似音频轨道,然后依次应用一系列处理步骤。首先,利用基于哈达玛矩阵的特殊编码方案将四种 DNA 碱基映射为数值,该矩阵由精心选择的正负一构成。此步生成四条保留原始序列全部信息但更适合分析的数值轨迹。接着,方法在序列上使用滑动窗口,并应用一种时频工具——短时离散傅里叶变换(STDFT)来搜索每三碱基出现一次的重复模式。该“3 周期”节律是蛋白质编码区的已知特征,因为蛋白质由遗传密码中的三字母词(密码子)构成。

剥离信号的层次
真实的基因组数据很杂乱。长程背景趋势和随机波动会模糊 3 周期模式,尤其是在短外显子处。为了解决这一问题,作者借用了高级信号分解的思想,把复杂波形拆成更简单的构件。他们使用一种称为完全集合经验模态分解(CEEMD)的技术,该方法通过反复加入精心平衡的噪声并对结果取平均来生成一组更干净的分量。随后利用自相关度量来判断哪些分量包含有意义的结构,哪些主要由噪声主导。对被判定为嘈杂的分量进一步采用小波包阈值去噪,去除小的抖动变化,同时保留信号的主要形态。

在真实基因上测试该方法
为了评估管道的效果,作者将其应用于模式生物线虫 Caenorhabditis elegans 和家鼠的已研究基因,以及一个包含人、鼠和鼠科动物 195 段基因的基准集合。在每种情况下,他们将外显子预测与专家注释进行比较。该方法在真实外显子处产生了更清晰的峰值,并在非编码区域显示出更低的背景噪声。用灵敏度、特异性、准确率和 ROC 曲线下面积等常用指标总结性能时,他们的方法持续优于若干早期依赖更简单滤波器或不够精细分解的信号处理方法。尤其在兼顾正确检测外显子与避免误报方面,改进更为显著。
这对基因组分析意味着什么
对读者而言,主要结论是作者构建了一个更精确的“监听”基因组的装置。通过谨慎地将 DNA 映射为数值、在短窗口内追踪其节律、将信号剥离为干净分量并有针对性地去除噪声,他们获得了关于蛋白质编码位置的更清晰视图。尽管当前实现可能计算负担较重且仍需调优某些参数,该框架表明现代信号处理工具可以显著改善我们读取基因组的方式。长期来看,此类方法或能帮助科学家更快地注释新基因组,并支持基因功能、疾病机制和个体化医学的后续研究。
引用: Benarjee, S., Vaegae, N.K. A STDFT-CEEMD approach with wavelet packet thresholding for exon prediction in eukaryotic cells. Sci Rep 16, 15948 (2026). https://doi.org/10.1038/s41598-026-43722-2
关键词: 外显子预测, 基因组信号处理, DNA 分析, 蛋白质编码区, 降噪