Clear Sky Science · zh

使用临床自由文本和皮肤镜图像的多模态模型用于皮肤癌分类

2026-03-19 · 返回目录

为何更智能的皮肤检查很重要

皮肤癌很常见，但早期发现时，患者通常预后良好。医生已经使用痣的特写照片来判断哪些痣看起来值得关注。本研究提出了一个简单但影响深远的问题：如果计算机不仅能看图像，还能阅读医生关于每个痣的笔记，是否能更准确、更公平地识别皮肤癌？

图像加文字讲述更完整的故事

研究人员从英国的常规皮肤科诊所构建了一个大型数据集。该数据集包含来自4538名成年人的5481张皮肤镜特写图像，以及诸如年龄和肤色等基本患者信息和四类临床笔记。这些笔记涵盖病变的外观和随时间的变化、家族中是否有皮肤癌、患者的日晒史以及外科医生的判断和计划。每例都被标注为良性或恶性，尽可能用活检结果确认恶性病例。

临床笔记中的隐含线索

与简单的勾选项数据不同，自由文本允许医生描述细微特征：变得更暗的痣、会出血的斑点，或多年在户外工作的患者。这类细节信息量大，但也可能泄露答案。许多笔记包含作者所称的引导性语言：明确陈述或强烈暗示诊断或治疗的短语，如“基底细胞癌，转诊活检”或“无需治疗”。如果机器学习模型仅仅依赖这些捷径，它在过去数据上可能表现得非常准确，但并未真正学会如何从图像或患者描述中识别癌症。

教计算机忽略捷径

为了解决这一问题，团队设计了若干层次的文本清理。简单规则首先去除了明确的皮肤病名称以及“良性”“恶性”等词。然后他们使用大型语言模型进行更细致的过滤。在一种设置中，关键的诊断短语和治疗计划被替换为中性标签，以便作者衡量每类陈述对性能的提升有多少。在最严格的设置中，仅保留患者合理能提供的事实信息，例如痣存在了多长时间或既往的晒太阳习惯。该方法旨在使文本更接近面向患者的系统可能看到的信息，而不是依赖专家内部线索。

Figure 2. 杂乱的门诊记录如何被过滤并与痣的图像合并，以便人工智能模型能更公平地评估癌症风险。

模型实际学到了什么

当计算机模型仅依赖图像时，表现良好，但加入未经过滤的笔记后显著提升。主要准确性度量——受试者工作特征曲线下面积（AUROC）——从仅图像的0.909上升到图像加原始笔记的0.970。即使去除了所有明显的诊断性语言，图像与经过仔细过滤的文本结合仍达到约0.948的AUROC，高于任何单一信息源。带标签短语的实验表明，像“转院检查”这样的简单动作传达的信息几乎与明确的癌症标签相当，证实了许多笔记中存在强烈的内在偏差。作者还考察了不同年龄组和肤色类别的表现，发现无论是仅图像模型还是完全多模态模型，不公平性的水平都相对较低。

这对未来皮肤检查意味着什么

对于非专业人士，关键结论是：医生的笔记包含真实且有用的线索，能帮助计算机辅助皮肤癌决策，但必须谨慎处理。如果允许模型读取未经过滤的笔记，它们可能学会模仿医生的措辞，而不是学会识别危险痣。本研究表明，通过对文本进行审慎清理并将其与图像及基本患者数据结合，可以在提升准确性的同时减少隐含偏差。随着时间推移，这类多模态工具或能帮助基层医生做出更好的转诊决定、缩短等待专家诊治的时间，并为将来可能直接辅助患者的安全、具文本意识的系统奠定基础。

引用: Watson, M., Winterbottom, T., Hudson, T. et al. Multimodal models for skin cancer classification using clinical freetext and dermatoscopic images. Commun Med 6, 277 (2026). https://doi.org/10.1038/s43856-026-01456-2

关键词: 皮肤癌, 机器学习, 皮肤科, 临床记录, 医学影像