Clear Sky Science · zh

用于大规模影像研究的计算与资源高效的全基因组关联分析

2026-02-28 · 返回目录

洞察大脑的基因蓝图

为什么有些人的大脑衰老更平稳、更能抵抗精神疾病，或者在记忆与学习方面更为出色？现代脑成像与基因检测提供了答案的可能，但数据体量庞大到令人望而生畏。本研究提出了一种将微小的DNA差异与精细脑影像相连接的新方法，使得对整个人类基因组与数百万个脑测量点进行比对变得切实可行。这一方法不仅大幅降低了计算与存储成本，还揭示了将特定脑区与教育、抑郁和精神分裂症等性状联系起来的隐性遗传模式。

从模糊的平均值走向精细的大脑图谱

大多数大规模的脑遗传学研究把影像简化为几百个汇总测量，例如某一区域的总体体积。这样的捷径使分析可行，但会抹去细粒度信息。实际上，每次脑扫描包含数万个微小位置（体素），这些位置的结构与连线可能存在差异。理想的科学做法是对每个体素进行全基因组逐点检验，但在实践中这会膨胀成万亿级别的检验，需要巨大的计算资源，并产生过大而难以共享或重用的汇总文件。

一种更聪明的脑影像压缩方式

作者提出了一个名为基于表示学习的体素级遗传分析（Representation learning-based Voxel-level Genetic Analysis，RVGA）的框架来解决这一瓶颈。RVGA首先通过将平滑、有意义的结构与随机扫描噪声分离来清理每幅脑图像。然后它学习一小组潜在模式——类似于形状和纹理的基础构件——这些模式可以被组合以重构原始图像。每个人的大脑不再由每个体素逐一表示，而是用这些模式的得分来概括，从而在保留大部分信号的同时将数据量压缩一到三个数量级。随后将这些模式得分作为性状用于标准的全基因组关联研究，运行速度大大加快。

从小片段重建完整图像

关键在于，RVGA并不止步于这些压缩后的性状。利用已学得的模式，它在数学上将基因发现从模式层级“投影回”到图像的每个体素。这个技巧使研究者能够在无需拟合数十亿个独立模型的情况下，恢复出精细的体素级关联图。需要存储和共享的仅有三项紧凑成分：模式的遗传结果、图像模式本身以及模式得分在人群中的变化方式。凭借这个最小的“三件套”，RVGA可以重建全分辨率的遗传效应图、估计每个体素的遗传贡献度以及计算体素之间和与外部性状之间的遗传共享情况。

新方法在真实大脑中的发现

研究团队将RVGA应用于来自英国生物库的超过53,000名参与者的脑影像与基因数据。他们聚焦于与记忆密切相关的海马体的精细形态，以及连接不同脑区的主要白质通路的微观结构。借助RVGA，他们鉴定出39个此前未报道的影响海马体形态的基因区域和275个影响白质微结构的新区域，同时复制了许多已知发现。该方法将生成的遗传汇总文件体积约缩小了229倍，使其更易共享。它还显示出遗传影响远非均匀：某些海马子区域的遗传力明显高于其他区域，某些白质片段则携带尤为显著的遗传信号。

与教育、情绪和精神疾病的关联

由于RVGA可以与其他研究的遗传结果结合，作者构建了脑体素与脑部疾病及相关性状之间遗传共享的“图谱”。例如，他们发现海马尾部及其邻近结构的部分区域与教育成就存在正向遗传关联，而另一个子区域（前海马下皮质）则表现出负向关联。在白质中，前冠状放射的特定片段与精神分裂症共有遗传影响，而胼胝体的部分区域与双相情感障碍呈负向遗传联系。许多这些模式验证了早先基于区域的发现，但RVGA将它们细化到精确的亚区域，提示了更有针对性的生物学通路。

这对脑健康的重要性

通过使超精细的脑遗传扫描既可行又易于共享，RVGA为新一代影像遗传学研究打开了大门。研究者现在可以确切看到哪些微小脑组织斑块受特定遗传变异影响、影响程度如何，以及这些斑块如何在遗传上与认知和精神疾病相互关联。随着时间推移，这类图谱可能有助于定位可被监测、保护或用于个性化治疗靶向的生物回路。该方法也可推广到其他富含影像信息的器官，预示着从模糊平均值向高分辨率遗传洞见的更广泛转变。

引用: Jiang, Z., Stein, J., Li, T. et al. Computation and resource efficient genome-wide association analysis for large-scale imaging studies. Nat Commun 17, 3313 (2026). https://doi.org/10.1038/s41467-026-69816-z

关键词: 影像遗传学, 脑部MRI, 全基因组关联, 海马体, 白质