Clear Sky Science · zh

一种结合回归与分类任务的多任务学习方法用于联合特征选择

· 返回目录

为什么这个新工具对数据很重要

现代医学对每位患者收集大量信息,从化验值和生命体征到详细的脑部与基因测量。医生和研究人员常常希望同时预测多项内容——例如疾病诊断和若干重要血液指标的水平——同时还想找出哪些测量真正最重要。本文提出了一种新的统计工具,称为 MTLComb,能够同时更公平、更可靠地完成这两项任务,尤其是在不同预测类型并存时。

Figure 1
Figure 1.

不同的问题,相同的挑战

许多机器学习系统只被训练用于回答一种类型的问题,比如预测一个数值(例如年龄或血压)或预测一个是/否结果(例如是否有疾病)。然而在真实的医学研究中,这些问题经常同时出现,并且由重叠的生物学原因驱动。理想情况下,一个学习系统能够同时处理所有这些问题,并突出在各项中都重要的测量——可能跨结果通用的潜在生物标志物。现有的所谓多任务学习方法在所有任务类型相同时能够做到这一点,但当数值型与二元(是/否)预测混合时就会遇到困难。一种任务类型往往会在训练过程中占主导地位,从而可能错过重要的共享信号。

在算法内部实现平衡

MTLComb 的核心是一条简单但经过精心推导的规则,用于重新平衡不同预测任务对学习的影响。作者展示了数值型和二元预测所使用的损失函数在尺度上本质上不同,且梯度强度也不同。如果直接将它们合并,连续型结果的模型会开始选择许多特征,而二元结果的模型在相同惩罚下可能一个特征也不选,从而使共享特征列表产生偏差。通过分析这些梯度的行为,研究者们识别出一组固定权重,使得两类任务的学习曲线——称为正则化路径——能够对齐。这意味着当模型变得更具选择性或更宽松时,两类任务会以协调的方式添加或删除特征,使得得到的生物标志物集合更加平衡且易于解释。

Figure 2
Figure 2.

在受控模拟中的方法测试

为了了解何时 MTLComb 最有优势,团队首先进行了大量模拟研究。他们生成的数据集中测量数量远多于患者数量,这在遗传学和重症监护研究中很常见。他们改变了这种不平衡的程度、包含的预测任务数量以及二元标签的不均衡程度。在这些情形中,MTLComb 不仅比竞争方法对未来数据的预测更准确,而且在找回模拟中植入的真正相关特征方面也更好。当数据维度非常高或某一类结果比另一类稀少得多时,其优势尤为明显——这两种情形在医学研究中都以难以处理著称。

在败血症与精神分裂症中的真实世界测试

随后,作者将 MTLComb 应用于两个具有挑战性的临床问题。在败血症(一种对感染的危及生命的反应)中,他们用常规收集的重症监护数据训练该方法,以同时预测败血症的存在及若干代谢和肾功能相关的血液标志物。MTLComb 在预测准确性上与强大的单任务方法相当,但其选择的特征在两个独立患者队列之间更稳定,并且与概括患者病情严重度的已知临床评分更密切相关。在精神分裂症研究中,他们结合了基于脑组织基因表达数据的年龄预测与疾病诊断。此处,MTLComb 发现了在年龄和疾病状态上都表现一致的一组基因,这些基因在已与精神分裂症和衰老相关的脑信号通路中富集,提示可能存在涉及突触可塑性的共享生物学途径。

今后的意义

对非专业读者而言,核心信息是:MTLComb 提供了一种同时提出多个医学问题的方法,同时对每个问题公平对待。它不让某一种预测类型淹没其他类型,而是谨慎地平衡它们,使最有信息量的测量持续浮现。该方法旨在高效运行,适用于测量远多于患者的情形,并且不依赖于针对某种特定疾病的假设。因此,它为研究人员提供了一个更清晰的窗口来识别共享风险标志——无论是在败血症、精神分裂症,还是在其他出现混合预测问题的领域——并可能帮助将复杂、多层次的数据转化为更可靠的诊断、预后和治疗线索。

引用: Cao, H., Rajan, S., Hahn, B. et al. A multi-task learning approach combining regression and classification tasks for joint feature selection. Sci Rep 16, 12699 (2026). https://doi.org/10.1038/s41598-026-43551-3

关键词: 多任务学习, 生物标志物, 败血症, 精神分裂症, 医疗人工智能