Clear Sky Science · zh
使用临床自由文本和皮肤镜图像的多模态模型用于皮肤癌分类
为何更智能的皮肤检查很重要
皮肤癌很常见,但早期发现时,患者通常预后良好。医生已经使用痣的特写照片来判断哪些痣看起来值得关注。本研究提出了一个简单但影响深远的问题:如果计算机不仅能看图像,还能阅读医生关于每个痣的笔记,是否能更准确、更公平地识别皮肤癌?

图像加文字讲述更完整的故事
研究人员从英国的常规皮肤科诊所构建了一个大型数据集。该数据集包含来自4538名成年人的5481张皮肤镜特写图像,以及诸如年龄和肤色等基本患者信息和四类临床笔记。这些笔记涵盖病变的外观和随时间的变化、家族中是否有皮肤癌、患者的日晒史以及外科医生的判断和计划。每例都被标注为良性或恶性,尽可能用活检结果确认恶性病例。
临床笔记中的隐含线索
与简单的勾选项数据不同,自由文本允许医生描述细微特征:变得更暗的痣、会出血的斑点,或多年在户外工作的患者。这类细节信息量大,但也可能泄露答案。许多笔记包含作者所称的引导性语言:明确陈述或强烈暗示诊断或治疗的短语,如“基底细胞癌,转诊活检”或“无需治疗”。如果机器学习模型仅仅依赖这些捷径,它在过去数据上可能表现得非常准确,但并未真正学会如何从图像或患者描述中识别癌症。
教计算机忽略捷径
为了解决这一问题,团队设计了若干层次的文本清理。简单规则首先去除了明确的皮肤病名称以及“良性”“恶性”等词。然后他们使用大型语言模型进行更细致的过滤。在一种设置中,关键的诊断短语和治疗计划被替换为中性标签,以便作者衡量每类陈述对性能的提升有多少。在最严格的设置中,仅保留患者合理能提供的事实信息,例如痣存在了多长时间或既往的晒太阳习惯。该方法旨在使文本更接近面向患者的系统可能看到的信息,而不是依赖专家内部线索。

模型实际学到了什么
当计算机模型仅依赖图像时,表现良好,但加入未经过滤的笔记后显著提升。主要准确性度量——受试者工作特征曲线下面积(AUROC)——从仅图像的0.909上升到图像加原始笔记的0.970。即使去除了所有明显的诊断性语言,图像与经过仔细过滤的文本结合仍达到约0.948的AUROC,高于任何单一信息源。带标签短语的实验表明,像“转院检查”这样的简单动作传达的信息几乎与明确的癌症标签相当,证实了许多笔记中存在强烈的内在偏差。作者还考察了不同年龄组和肤色类别的表现,发现无论是仅图像模型还是完全多模态模型,不公平性的水平都相对较低。
这对未来皮肤检查意味着什么
对于非专业人士,关键结论是:医生的笔记包含真实且有用的线索,能帮助计算机辅助皮肤癌决策,但必须谨慎处理。如果允许模型读取未经过滤的笔记,它们可能学会模仿医生的措辞,而不是学会识别危险痣。本研究表明,通过对文本进行审慎清理并将其与图像及基本患者数据结合,可以在提升准确性的同时减少隐含偏差。随着时间推移,这类多模态工具或能帮助基层医生做出更好的转诊决定、缩短等待专家诊治的时间,并为将来可能直接辅助患者的安全、具文本意识的系统奠定基础。
引用: Watson, M., Winterbottom, T., Hudson, T. et al. Multimodal models for skin cancer classification using clinical freetext and dermatoscopic images. Commun Med 6, 277 (2026). https://doi.org/10.1038/s43856-026-01456-2
关键词: 皮肤癌, 机器学习, 皮肤科, 临床记录, 医学影像