Clear Sky Science · zh

使用多实例注意力机制的内镜组织病理学腺癌数字病理学的AI报告生成模型

2026-03-12 · 返回目录

把切片变成文字为什么重要

当医生怀疑胃癌时，会从胃黏膜取出微小组织样本并在显微镜下检查。病理学家解读这些切片既需要技能又耗时，而他们撰写的书面报告会指导之后的所有治疗决策。本研究提出了一种人工智能（AI）系统，做了一件令人意外但很“人性化”的事：它查看胃活检切片的数字图像并自动生成短而结构化的描述，类似病理学家的报告。

从玻片到数字助手

胃腺癌是常见且致命的胃癌类型，目前由病理学家通过肉眼观察活检样本来诊断和分级。过去十年里，许多医院开始将玻片扫描成极大的数字图像，为可以辅助诊断的AI工具打开了大门。早期系统主要关注二选一问题，例如是否存在癌症，或将样本分到某个类别。然而，真实的病理报告是叙述性的：它描述细胞形态、组织模式及肿瘤的侵袭性程度。只有少数研究尝试直接从整张切片图像生成这些描述性字幕，而且许多工作依赖额外的标注来指示预定义亚型——这些标注代价高且并不总是可用。

一种让AI阅读许多小块的新方法

作者提出了一种名为MIAC（多实例注意力字幕生成）的字幕模型，专为胃腺癌的活检切片设计。单张数字切片太大，无法一次性输入模型，因此将其切分为许多小方块图像或补丁。MIAC采用多实例学习的方法：它不把这些补丁当作有序序列处理，而视为一个集合，允许补丁的数量和排列随切片而变，这符合日常实践中的情况。一个强大的图像网络首先从每个补丁中提取视觉特征。随后，一个不包含位置信息的自注意力机制学习每个补丁对最终摘要应有的影响力。模型将这些信号合成为整张切片的紧凑表示，再输入语言模块，逐词生成句子长度的诊断性字幕。

在真实报告上训练，在另一家医院测试

为训练MIAC，研究人员使用了一个名为PatchGastricADC22的公开数据集，包含近千张来自日本一家医院的扫描活检切片。每张切片都配有一条从原始病理报告中提取并标准化的短诊断句子。切片被分成数百个补丁，模型训练时给定其中一部分补丁，目标是生成原始的字幕。性能用标准的语言比较评分来衡量，这些评分评估AI生成描述与专家文本的接近程度。MIAC在所有指标上均优于此前的最先进方法，尤其是在训练时允许看到每张切片更多补丁时，这表明它更善于从分散的局部视图中把握切片层面的整体信息。

处理不同医院之间的差异

任何医学AI系统的一个主要问题是，当数据来自新环境时它是否仍然有效。研究团队因此在另一家医院收集的独立胃活检切片上测试了MIAC，这些切片的字幕由另一位病理学家撰写。这些图像在颜色上存在差异，源于局部的染色和扫描习惯，这是常见问题，可能会影响基于图像的模型。研究者应用了一种广泛使用的颜色标准化技术，将染色色调调整得更接近训练切片。即便没有进一步微调，MIAC在该外部数据集上也能生成具有临床意义的字幕，且在应用颜色标准化并从每张切片采样更多补丁时性能有所提升。

这对患者护理可能意味着什么

MIAC并非旨在取代病理学家；它的目标是起草简明且标准化的描述，供专家快速审阅和编辑。在繁忙的诊所或专家匮乏的地区，此类工具可缩短报告时间、减少措辞差异，并将具有复杂模式的病例标注出来以便仔细复核。研究也指出了当前的限制：当模型遇到来自新机构的切片或不寻常的组织模式时性能仍会下降，而且自动化的语言评分不能完全衡量临床有用性。作者认为，在此类字幕生成系统能够安全地融入日常诊断流程之前，需要更丰富的多中心数据集、更智能的补丁选择方法以及来自病理学家的直接反馈。

引用: Lee, Y., Bai, K., Kim, Y. et al. AI caption generation model for digital pathology of adenocarcinoma in endoscopic histopathology using multi-instance attention mechanisms. Sci Rep 16, 13244 (2026). https://doi.org/10.1038/s41598-026-37455-5

关键词: 胃癌, 数字病理学, 医学人工智能, 图像字幕生成, 组织病理学