Clear Sky Science · zh
LASSO–HHO 两阶段混合基因选择框架用于精确阿尔茨海默病诊断
这项研究对大脑健康的重要性
阿尔茨海默病剥夺人们的记忆和独立性,我们仍然缺乏简单且广泛可用的早期检测工具。现代实验技术可以在微小的脑组织或血液样本中测量数以万计基因的活性,但如此大量的数据很难为医生转化成明确的肯定或否定结论。本文提出了一种智能的两步方法,用以筛选这些基因信息,挑出极少数的基因集合,能够以极高的准确率诊断阿尔茨海默病,同时保持方法足够快速和实用,便于实际应用。
把基因堆成的“草堆”变成少数线索
本研究中使用的每个阿尔茨海默基因表达数据集都包含超过两万条基因,但仅有数百名患者样本。这种不平衡就像试图通过成千上万个问题来识别一个人,而答案只来自少数志愿者:很容易把随机噪声当作有意义的信号。作者首先使用一种称为 LASSO 的技术来应对这一问题,它像一个强力过滤器,将大多数基因信号压缩为零,仅保留那些真正有助于区分阿尔茨海默患者与健康对照者的基因。单靠这第一遍筛选,通常就能将基因列表缩减超过 99%,显著降低复杂性与过拟合风险,同时保留足够的信息用于疾病预测。
必要时的第二次智能筛查
在初步剪枝之后,该框架在条件满足时启动第二步,该步基于一种受自然启发的搜索策略——哈里斯鹰优化(Harris Hawks Optimization)。在这里,每只“鹰”代表一组可能的基因子集,鹰群通过不断调整位置来寻找能提升诊断效果的组合。关键是,这一步并非总是执行。如果 LASSO 单独已经达到至少 99% 的准确率且所选基因数量少于 40 个,则流程会在此停止。否则,基于鹰群的搜索会进一步精炼存活下来的基因,搜索过程以一种评分规则为导向,该规则高度奖励高诊断准确率,同时仍偏好更少的基因。此自适应设计避免在简化方法已足够好的情况下浪费计算资源。

方法验证
作者在四个来自不同脑区和研究团队的公开阿尔茨海默数据集上评估了他们的框架——称为 LHGS。他们仅使用所选基因训练了一个标准机器学习分类器(支持向量机),并用准确率、精确率与召回率等常用指标评估性能。在部分数据集中,仅用 LASSO 就能达到完美或接近完美的准确率:有一个数据集仅需三个基因就能正确区分所有阿尔茨海默样本与健康样本。在更具挑战性的数据集中,加入基于鹰群的搜索后,准确率提高到 100%,同时最终基因集仍保持在大约 11 到 37 个之间。与多种其他流行优化方法相比,这种两阶段方法既更准确又快得多,因为繁重的搜索只在 LASSO 大幅缩减后的空间中进行。
发现有前景的基因标记
除了构建良好的预测器,研究还突出了一些在阿尔茨海默生物学中可能特别重要的具体基因。通过查看每个基因在 LASSO 步骤中的贡献强度,作者识别出在各数据集中一致具有影响力的短列表基因。其中一些,例如 TRPM7 以及参与应激信号、炎症调控和突触通讯的基因,已与大脑健康和神经退行性疾病相关联。其他一些基因则了解较少,为实验室研究指明了新方向。可靠诊断可以仅依靠几十个甚至更少基因这一事实,暗示未来的检测可能会侧重于小型、针对性的基因面板,而非昂贵的大型芯片。

这对未来阿尔茨海默诊断的意义
对非专业读者而言,主要信息是:通过一套严谨的两步流程,从数以万计的基因中筛选出极少数基因,识别阿尔茨海默的分子“指纹”正变得可行。LHGS 框架表明,我们可以将快速的统计过滤与有选择性的第二次筛查结合起来,同时兼顾准确性与速度,使该方法更适合最终的临床工具。作者也提醒,需要在更大且更多样化的患者群体中验证这些结果,且早期实验可能对性能略有高估,但这项工作指向了基于血液或组织的基因检测方向,可以使用紧凑且精心挑选的基因标记来早期提示阿尔茨海默病。
引用: Asiry, O., El-Gawady, A., Eltoukhy, M.M. et al. LASSO–HHO two-stage hybrid gene selection framework for accurate Alzheimer’s disease diagnosis. Sci Rep 16, 13393 (2026). https://doi.org/10.1038/s41598-026-48742-6
关键词: 阿尔茨海默病诊断, 基因表达, 特征选择, 机器学习, 生物标志物