Clear Sky Science · zh

EPEE：迈向高效且有效的生物医学基础模型

2026-05-12 · 返回目录

为什么更快的“思考”对医学重要

现代人工智能在解读病历和分析影像方面表现出色，但在真实医院环境中每一秒都很重要。急诊室和重症监护室的医生无法等待大型模型在数十个步骤中慢慢“思考”，尤其是当那些额外步骤并未提升答案质量时。本研究提出了一种方法，帮助大型医疗人工智能系统判断何时已经获得足够信息以做出安全且有把握的决策，从而在不牺牲准确性的前提下节省时间和计算资源。

Figure 1. 医疗人工智能如何对简单病例提前退出，从而更快地给出决策而不降低准确性

缓慢且“爱瞎折腾”的人工智能问题

大型“基础”模型驱动了许多近期的健康技术进展。语言模型帮助筛查电子健康记录和研究论文，视觉模型则分析X光片或组织切片等影像。然而，这些模型由多层叠加构成，会重复处理相同输入。在实践中，后面的层常常增益有限，甚至可能损害准确性——作者称此为过度思考（overthinking）。对于等待风险评分或危险药物交互提醒的医生来说，计算机的额外“思想”会转化为现实世界的延迟和更高的计算成本。

让简单病例提前退出

以往研究提出了“早期退出”策略，在层与层之间设置小型检查点。如果某个检查点对答案已经非常确定，模型可以在此停止，而无需把数据送入后续所有层。一类方法基于置信度决策：当预测高度聚焦于某个结果时模型退出。这类方法简单且灵活，但在追求速度时可能损失准确性。另一类方法要求连续若干层达成一致，即所谓的“耐心”规则，这通常能保护准确性，但对所需连贯层数敏感，对于不同临床需求而言难以调节。

一种名为 EPEE 的混合早期退出方法

作者提出了 EPEE（基于熵与耐心的早期退出），将上述两种思想结合。在变换器模型的每一层，EPEE都附加了一个轻量级分类器。系统检查两个简单条件：当前预测是否非常有信心，以及最近几层是否持续给出相同判断？若满足任一条件，模型即停止并返回结果。通过调整“信心”的定义和所需连续一致的层数，用户可以在速度与谨慎之间进行调节。重要的是，作者表明仅基于置信度或仅基于耐心的旧方法都是这一更通用策略的特例。

Figure 2. 一种人工智能模型如何使用分层退出，让简单输入在较早层停止，而复杂输入在更深层做出决策

在真实医学文本与影像上的测试

为检验 EPEE 的实际效果，团队在三类生物医学任务上进行了测试：对病历或评论进行分类、发现诸如药物交互之类的关系，以及从文本中抽取医疗事件。他们使用了八种流行的基础模型，包括像 BERT 与 GPT-2 的语言模型，以及用于医学影像的视觉变换器。在来自重症监护记录、患者评论、医学文献以及胸片和血细胞切片等影像集合的十二个数据集上，他们将 EPEE 与标准的全深度推理及先前的早期退出方法进行了比较。在许多情况下，模型在中间层就达到了最佳或接近最佳的准确率，这意味着强制模型使用所有层并非必要。EPEE 利用这一点，让简单病例提前退出，同时允许更难的病例通过更多层。

在临床中平衡速度与可靠性

当研究者测量运行时间时，EPEE 相较于普通的全深度模型和先前的早期退出技术，持续降低了推理延迟，经常在匹配或略微提升准确度的同时减少有效计算量。该方法在训练期间仅需付出小幅额外成本，并且对语言与影像模型（包括较新的大型生物医学模型）同样适用。由于其两个设置可以调整以针对速度与正确性之间的特定权衡，EPEE 非常适合像重症监护这样需要快速应答但容错率低的场景。

这对未来医学人工智能意味着什么

简而言之，这项工作教会大型医疗人工智能系统在已经知道答案时停止，而不是无休止地反复检查。通过将两种常见的退出规则组合成一个灵活的框架，EPEE 表明医院不一定需要更大的模型来获得更好性能；更明智地利用现有模型的“脑力”就可能足够。如果广泛采用，这类早期退出策略可帮助将强大的文本与影像模型引入实时临床工作流程，支持床旁更快且仍然可靠的决策。

引用: Zhan, Z., Zhou, S., Zhou, H. et al. EPEE: towards efficient and effective foundation models in biomedicine. npj Health Syst. 3, 30 (2026). https://doi.org/10.1038/s44401-026-00083-2

关键词: 早期退出, 生物医学人工智能, 基础模型, 模型效率, 临床决策支持