Clear Sky Science · zh

使用深度学习与可解释人工智能从血液基因表达数据中可解释性特征选择预测阿尔茨海默病

· 返回目录

这项研究为何重要

阿尔茨海默病会逐步剥夺人的记忆和独立性,但目前最准确的检测通常依赖昂贵、侵入性且难以重复的脑部影像或腰椎穿刺。本研究探索一种更少痛苦的替代方案:通过简单的抽血结合先进的计算分析,识别基因活性中的模式以提示阿尔茨海默病,可能为更早、更易获得的诊断铺平道路。

Figure 1
Figure 1.

用血液检测替代脑部扫描

作者关注血细胞中基因开关的细微变化。现代芯片可以同时测量数千个基因的活性,为每个人生成一张庞大的数值表格。挑战在于基因测量的数量远多于患者数,这很容易误导计算模型。为了解决这一问题,研究者将三个大型公开血样数据集合并,这些数据来自阿尔茨海默病患者和健康志愿者,创建了一个整合资源,包含在数百名个体中测量的超过一万二千个共享基因。

教计算机挑出关键预警信号

研究团队并不要求算法消化全部一万二千个基因,而是先让它挑选出一小组特别有信息量的基因。他们比较了几种方法,包括简单的统计检验、逐步剔除较不有用基因的方法,以及将选择过程直接内置于模型的做法。这些“特征选择”工具把基因名单缩减到数百到一千多名,能最好地区分患者与健康对照。精简后的基因集有助于防止模型记忆噪声,并提高其对未见数据的表现。

Figure 2
Figure 2.

理解所谓的黑箱

为避免对黑箱预测盲目信任,研究者采用了可解释人工智能技术来弄清哪些基因最重要以及它们如何影响每个决策。借自博弈论的一种方法称为SHAP,为每个基因在每个人最终预测中的贡献打分。将其应用于表现最佳的模型后,作者突出了一个核心基因组,其活动模式一致地将判定倾向于阿尔茨海默病或健康。许多这些基因已与脑健康或免疫功能相关,为模型内部机制提供了生物学上的可信度。

用合成患者增强样本量

即便合并数据集后,真实血样数量仍然有限。为加强模型,作者训练了一种特殊的神经网络——生成对抗网络(GAN),以创建类似真实患者的逼真合成基因谱。这些人工样本仅被加入训练数据,从不用于测试数据,以确保性能评估保持诚实。借助扩充的训练池和精心选择的基因,深度神经网络能够以约91%的总体准确率和95%的精确率识别阿尔茨海默病例,这意味着被误判为患病的健康人非常少。

这些发现对患者意味着什么

这项工作表明,未来基于血液的阿尔茨海默检测,结合能挑出并解释关键基因信号的智能算法,可能成为昂贵影像和侵入性程序的有益补充,甚至减少对它们的依赖。尽管还需在独立患者群体上做更多验证,并更好地控制不同实验室方法之间的差异,研究展示了将多个数据集结合、剔除无用信息并揭示人工智能“黑箱”如何将我们带向更实用、可解释的血液检测,便于更早且更舒适地发现阿尔茨海默症状。

引用: Hariharan, J., Jothi, R. Alzheimer’s disease prediction using deep learning and XAI based interpretable feature selection from blood gene expression data. Sci Rep 16, 8022 (2026). https://doi.org/10.1038/s41598-026-35260-8

关键词: 阿尔茨海默病诊断, 血液生物标志物, 基因表达, 深度学习, 可解释的人工智能