Clear Sky Science · zh

深度学习与注意力机制识别关键基因及其对昆虫翅膀起源的启示

· 返回目录

为什么昆虫翅膀对我们重要

就数量和种类而言,昆虫主宰了地球,而它们的翅膀是关键原因之一。翅膀让昆虫得以扩散、觅食、逃避天敌,并影响整个生态系统。然而科学家仍在争论这些纤薄结构如何从无翅的祖先演化而来。本研究利用现代人工智能在昆虫的 DNA 中寻找线索,揭示了翅膀与鳃之间共享的遗传程序,为翅膀的起源提供了新的视角。

回溯到远古海洋

为理解昆虫翅膀,作者从一个简单假设出发:今天的昆虫很可能起源于类似甲壳类、生活在水中并以鳃呼吸的动物。另一类观点则认为翅膀可能源自鳃状呼吸器官、体表的扁平板或胸部侧叶,也有研究指出这些来源的混合可能性。如果翅膀确实可追溯到鳃,那么关键基因应在昆虫翅膀和相关水生物种的鳃中表现出相似的活性。研究团队并未只逐一测试少数基因,而是着手扫描多种物种的完整蛋白集,以寻找与翅膀相关的隐藏模式。

Figure 1. 从远古鳃到飞行翅膀,人工智能追踪跨物种的共享遗传蓝图。
Figure 1. 从远古鳃到飞行翅膀,人工智能追踪跨物种的共享遗传蓝图。

教会神经网络“读”基因

研究者构建了一个名为 DeepWG 的深度学习系统,用以区分有翼与无翼物种的蛋白质。他们收集了来自119个物种的蛋白组,包括昆虫及其近缘类群,并仅保留高质量数据。每条蛋白序列被切分为短的三字母构件,有点像把句子拆成短语片段。这些片段被用来自然语言处理的技术转为数值向量,然后输入到带有注意力层的双向记忆网络中。该结构使模型能在两个方向上扫描蛋白序列,并在无需人工规则的情况下聚焦于信息量最大的区域。

找出翅膀依赖的基因

DeepWG 展现出很高的准确性,在测试样本中正确分类的比例超过97%,并胜过更简单的神经网络。注意力层会为每个相关基因家族分配权重,突出显示在区分有翼与无翼物种时最重要的家族。在近2.8万个基因家族中,权重大约排名前5%的家族产生了3,872个候选基因,其中包括许多已知影响昆虫翅膀形成的基因。著名例子包括控制翅膀生长、图案和大小的基因,以及调节细胞分裂和信号响应的通路。基因活动的网络分析将这些基因分组为与果蝇翅膀发育密切相关的模块,进一步表明 DeepWG 所识别的是有意义的参与者,而非随机噪声。

Figure 2. 一个神经网络如何逐步筛选基因序列,将与翅膀相关的基因从其他基因中分离出来。
Figure 2. 一个神经网络如何逐步筛选基因序列,将与翅膀相关的基因从其他基因中分离出来。

翅膀与鳃唱着同一首歌

最引人注目的检验来自比较这些关键基因在不同物种和组织中的表现。团队选取了果蝇、一种既有翅芽又有水生鳃的蜉蝣,以及一种有鳃但无翅的虾类甲壳动物,检查这些候选基因在翅膀、翅芽、鳃与其它组织中的启动强度。在这三种物种中,同一核心基因组在翅膀或翅芽以及鳃中表现出高活性,但在无关组织中不活跃。这一反复出现的模式表明,现代昆虫翅膀与甲壳动物鳃共享一种早于飞行演化的遗传工具箱。

这对飞行起源故事的意义

对非专业读者而言,结论是昆虫翅膀可能并非全新发明,而是对祖先鳃状结构的巧妙改造,由一组保守的基因所引导。通过让神经网络筛阅大量序列数据,研究揭示了数百个将翅膀与鳃在节肢动物谱系中相连的基因。尽管拼图的许多部分仍未完全拼清楚,共享的基因活动模式强烈支持翅膀由远古水生祖先的鳃状结构演化而来这一观点。DeepWG 也为通过解读基因组语言追踪其他重要性状的演化提供了一种通用工具。

引用: Liu, F., Cao, Y., Qian, S. et al. Deep learning and attention mechanisms to identify key genes and their implications for the origin of insect wings. Sci Rep 16, 15998 (2026). https://doi.org/10.1038/s41598-026-49441-y

关键词: 昆虫翅膀, 翅膀演化, 深度学习, 基因表达, 节肢动物鳃