Clear Sky Science · zh

Screenathon 2.0:将人机协作筛查应用于患者生成的健康数据

· 返回目录

这对日常健康研究为何重要

现代医学依赖于在大量科学论文中筛选出真正有效的证据。但新研究的数量已增长到即便是组织良好的研究团队也难以跟上。本文描述了一种将人类与人工智能(AI)配合的新方法,以加速论文的“筛查”工作,同时仍保持人工判断的主导地位。这种名为 Screenathon 2.0 的方法展示了专家群体与智能软件如何协同,在几天内完成大规模的阅读任务。

Figure 1
Figure 1.

从独自阅读到团队协作

传统上,研究者通过至少两名人员阅读每篇论文的标题和摘要来决定其是否符合研究问题,从而完成系统综述。这个谨慎的过程有助于保证结论的可信性,但速度缓慢,且随着论文数量激增难以扩展。此前,同一研究小组尝试将筛查变成一次“Screenathon”,让数十名专家并肩工作数日以分担工作量。第一次活动证明了团队合作的好处,但仍完全依赖人工,无法彻底避免疲劳、经验不均和标注错误。

把 AI 作为有用的队友加入

在 Screenathon 2.0 中,团队通过将 AI 直接嵌入工作流程对流程进行了升级。他们聚焦于患者生成的健康数据相关研究——这些数据由人们使用健身追踪器、血糖监测仪或健康应用等工具自行收集。借助开源程序 ASReview,AI 模型实时从每次人工审阅的判断中学习:每当有人将一篇论文标为相关或不相关,系统就会更新其内部规则并重新排列剩余论文,把最有前景的推到队列前端。这样,人类仍是决策者,而 AI 则作为不断改进的向导,决定接下来应检查哪些论文。

两天的繁忙大实验

研究者在为期三天的欧洲卫生联盟会议期间测试了这种人机合作模式。来自27个合作机构的27名专家筛查了近7000条分布在11个疾病领域(从癌症到心脏病和神经系统疾病)的文献记录。第一天,参与者接受了纳入规则的培训并了解了 AI 系统的工作原理。第二天,他们集中进行高强度的协作筛查,有时甚至在公共空间继续非正式工作。到结束时,他们标注了487条相关记录和6000多条不相关记录,有些人只筛查了少数论文,另一些人处理了数千篇,所有人的标注都汇入了针对每个疾病主题的共享 AI 模型。

Figure 2
Figure 2.

核查人机输出

如果重要研究被遗漏,仅仅追求速度毫无意义,因此团队设计了强有力的“事后处理”阶段。主活动结束后,他们花了数周时间核查和优化结果:将被错误分配到疾病组的论文重新分配、复读有疑问的案例,并使用严格的停止规则进行额外轮次的筛查,例如一直继续直到出现数十篇连续的不相关论文。最后,他们采用一种特殊方法重新检查可能被错误拒绝的记录。这一细致的清理阶段在各主题中发现了200多篇额外的相关研究,表明快速的 AI 辅助筛查仍然可以与彻底的质量控制相结合。

人们对与 AI 合作的感受

在活动期间,参与者完成了关于自信心、积极性以及对 AI 辅助审阅信任度的调查。总体而言,他们报告了较高的积极性和满意度,超过一半的人表示更倾向于 AI 辅助筛查而非完全传统的方法。重要的是,他们在实际使用系统后对 AI 支持审阅的信任度有所提高。许多人称赞软件的简洁与清晰,但也建议改进,例如更好的筛选选项和更透明的视觉提示,说明 AI 如何对论文进行优先级排序。

这种新方法告诉我们的是什么

对于普通读者来说,关键结论是:应对医学研究爆炸式增长的挑战,不必在“人”与“机器”之间做非此即彼的选择。Screenathon 2.0 表明,将专家判断与自适应 AI 结合,能帮助研究团队在不牺牲审慎与监督的前提下迅速找到最相关的研究。AI 加快了筛查进程,但人类仍做出最终判断并核对结果。通过充分的培训和严密的事后核查,这类人机协作有望在健康信息持续增长的背景下,使证据收集更加快速、可靠且可持续。

引用: Bergmann, J., Azzi, T., Neeleman, R. et al. Screenathon 2.0: human–AI collaborative screening applied to patient-generated health data. Sci Rep 16, 14487 (2026). https://doi.org/10.1038/s41598-026-45385-5

关键词: 系统综述, 人机协作, 患者生成的健康数据, 主动学习, 文献筛查