Clear Sky Science · zh
ModernBERT 在日本放射科报告的胸部 CT 影像所见分类中,比传统 BERT 更高效
为何更快地阅读病历报告很重要
医院每天会产生数千份描述影像所见的放射科报告。将这些自由文本笔记转换为结构化信息,有助于研究、质量控制,甚至为未来支持诊断的 AI 系统提供数据。但计算机首先必须“理解”这些语言,而日语医学写作混杂专业术语、缩写与英文词汇,这使得理解尤其困难。本研究探讨一种名为 ModernBERT 的新型语言模型,能否在不损失准确性的前提下,比常用的老式 BERT 模型更高效地阅读日文胸部 CT 报告。
计算机如何学会阅读影像报告
为公平比较模型,研究人员集中在一个具体任务:对每份胸部 CT 报告判定 18 项可能的所见中哪些存在,例如肺结节、肺气肿或胸腔积液等。他们使用了一个名为 CT‑RATE‑JPN 的大型公开数据集,包含逾 22,000 篇经翻译的日文胸部 CT 报告并由专家标注。大多数报告用于训练和调优三种模型:标准 BERT、以医学为重点的 JMedRoBERTa,以及 ModernBERT。另有 150 份独立报告用于测试每个模型在组合标注上的准确度。

建立更具挑战性的真实世界测试
因为翻译后的报告往往比日常临床写作更统一,团队还构建了一个新的外部数据集 RR‑Findings。这 243 份日文报告来自真实肺癌病例,由九位经认证的放射科医师撰写。每份报告通过资深医生的两步审查程序,以相同的 18 项所见进行标注。与翻译数据集不同,这些报告包含多样化的书写风格、改写和缩写,更贴近放射科医师在实际工作中的表达,使 RR‑Findings 成为检验模型应对自然语言差异能力的更强测试集。
由更短“词”片段带来的速度提升
模型间的关键差别在于它们将文本拆分为片段(或 token)的方式。ModernBERT 使用了更丰富的词汇表,更高效地处理日语术语和混合英文短语,因此表示同一份报告所需的 token 更少。在内部测试集中,ModernBERT 将平均 token 数相比 BERT 缩减了约四分之一。更少的 token 意味着更快的计算:在训练和测试过程中,ModernBERT 每秒处理的报告数约为其他模型的 1.67 倍,并且完成全部训练所需的时间显著更短。重要的是,这种效率并未在内部任务上带来准确度损失:三种模型在准确率上相近,且在严格的“全部标签正确”指标上 ModernBERT 略有领先。

当语言风格发生变化时,稳定性很重要
在真实世界的 RR‑Findings 数据集上测试时,情况发生了变化。在该数据集中,标准 BERT 获得了最佳的全匹配准确率,而 ModernBERT 与其在翻译报告上的表现相比,跌幅最大。细致分析显示,当放射科医师使用与训练数据不同的措辞时,ModernBERT 的表现受影响更明显,例如将瘢痕称为“慢性炎性改变”而非直接术语,或使用像 GGN 这样的缩写来指代某类结节。然而,它对各项所见的相对可能性排序仍相当合理,这表明其区分模式的基本能力保持良好,但置信阈值比起模型本身更容易受语言风格变化的影响。
这对医院 AI 工具意味着什么
对于希望部署本地、私有化 AI 来筛查放射科报告的医院来说,ModernBERT 在速度和计算成本方面具备明显优势,尤其是处理较长文本时。在匹配良好的数据上,它能以更少资源匹配或略超旧款模型的准确度。然而,本研究也表明仅有效率并不够:模型需要在更广泛的自然临床语言上进行训练与校准,才能应对日常报告中的紊乱现实。作者得出结论:ModernBERT 是处理日文放射科文本的强大且高效的选项,但未来的工作应加入更多多样化的训练数据和更智能的调优策略,以确保即使在书写风格和患者群体变化时,快速模型依然可靠。
引用: Yamagishi, Y., Kikuchi, T., Hanaoka, S. et al. ModernBERT is more efficient than conventional BERT for chest CT findings classification in Japanese radiology reports. Sci Rep 16, 15956 (2026). https://doi.org/10.1038/s41598-026-44292-z
关键词: 放射科报告, 日本医学 AI, BERT, ModernBERT, 胸部 CT 所见