Clear Sky Science · zh

ModernBERT 在日本放射科报告的胸部 CT 影像所见分类中，比传统 BERT 更高效

2026-04-03 · 返回目录

为何更快地阅读病历报告很重要

医院每天会产生数千份描述影像所见的放射科报告。将这些自由文本笔记转换为结构化信息，有助于研究、质量控制，甚至为未来支持诊断的 AI 系统提供数据。但计算机首先必须“理解”这些语言，而日语医学写作混杂专业术语、缩写与英文词汇，这使得理解尤其困难。本研究探讨一种名为 ModernBERT 的新型语言模型，能否在不损失准确性的前提下，比常用的老式 BERT 模型更高效地阅读日文胸部 CT 报告。

计算机如何学会阅读影像报告

为公平比较模型，研究人员集中在一个具体任务：对每份胸部 CT 报告判定 18 项可能的所见中哪些存在，例如肺结节、肺气肿或胸腔积液等。他们使用了一个名为 CT‑RATE‑JPN 的大型公开数据集，包含逾 22,000 篇经翻译的日文胸部 CT 报告并由专家标注。大多数报告用于训练和调优三种模型：标准 BERT、以医学为重点的 JMedRoBERTa，以及 ModernBERT。另有 150 份独立报告用于测试每个模型在组合标注上的准确度。

Figure 1. AI 模型能更快、更高效地将日文胸部 CT 报告转换为结构化的肺部所见列表。

建立更具挑战性的真实世界测试

因为翻译后的报告往往比日常临床写作更统一，团队还构建了一个新的外部数据集 RR‑Findings。这 243 份日文报告来自真实肺癌病例，由九位经认证的放射科医师撰写。每份报告通过资深医生的两步审查程序，以相同的 18 项所见进行标注。与翻译数据集不同，这些报告包含多样化的书写风格、改写和缩写，更贴近放射科医师在实际工作中的表达，使 RR‑Findings 成为检验模型应对自然语言差异能力的更强测试集。

由更短“词”片段带来的速度提升

模型间的关键差别在于它们将文本拆分为片段（或 token）的方式。ModernBERT 使用了更丰富的词汇表，更高效地处理日语术语和混合英文短语，因此表示同一份报告所需的 token 更少。在内部测试集中，ModernBERT 将平均 token 数相比 BERT 缩减了约四分之一。更少的 token 意味着更快的计算：在训练和测试过程中，ModernBERT 每秒处理的报告数约为其他模型的 1.67 倍，并且完成全部训练所需的时间显著更短。重要的是，这种效率并未在内部任务上带来准确度损失：三种模型在准确率上相近，且在严格的“全部标签正确”指标上 ModernBERT 略有领先。

Figure 2. 较新的 AI 将报告分成更少的片段、运行更快，但在临床真实用语发生变化时可能丧失准确性。

当语言风格发生变化时，稳定性很重要

在真实世界的 RR‑Findings 数据集上测试时，情况发生了变化。在该数据集中，标准 BERT 获得了最佳的全匹配准确率，而 ModernBERT 与其在翻译报告上的表现相比，跌幅最大。细致分析显示，当放射科医师使用与训练数据不同的措辞时，ModernBERT 的表现受影响更明显，例如将瘢痕称为“慢性炎性改变”而非直接术语，或使用像 GGN 这样的缩写来指代某类结节。然而，它对各项所见的相对可能性排序仍相当合理，这表明其区分模式的基本能力保持良好，但置信阈值比起模型本身更容易受语言风格变化的影响。

这对医院 AI 工具意味着什么

对于希望部署本地、私有化 AI 来筛查放射科报告的医院来说，ModernBERT 在速度和计算成本方面具备明显优势，尤其是处理较长文本时。在匹配良好的数据上，它能以更少资源匹配或略超旧款模型的准确度。然而，本研究也表明仅有效率并不够：模型需要在更广泛的自然临床语言上进行训练与校准，才能应对日常报告中的紊乱现实。作者得出结论：ModernBERT 是处理日文放射科文本的强大且高效的选项，但未来的工作应加入更多多样化的训练数据和更智能的调优策略，以确保即使在书写风格和患者群体变化时，快速模型依然可靠。

引用: Yamagishi, Y., Kikuchi, T., Hanaoka, S. et al. ModernBERT is more efficient than conventional BERT for chest CT findings classification in Japanese radiology reports. Sci Rep 16, 15956 (2026). https://doi.org/10.1038/s41598-026-44292-z

关键词: 放射科报告, 日本医学 AI, BERT, ModernBERT, 胸部 CT 所见