Clear Sky Science · zh
Melan‑Dx:一种融合知识的视觉-语言框架,可改进黑色素细胞肿瘤病理的鉴别诊断
为何更智能的黑色素瘤诊断很重要
黑色素瘤是一种危险的皮肤癌,若能尽早发现通常可治愈——但前提是显微镜下阅读组织切片的医生能正确辨认。遗憾的是,即便是有经验的专家有时也会对所见产生分歧,尤其是那些边界性病变,看起来几乎但又并非完全恶性。本文介绍了 Melan‑Dx,一种新的人工智能(AI)系统,旨在通过将数千张专家标注的显微镜图像与结构化医学知识相结合,为皮肤癌专家提供支持,从而实现更快速、更一致且更透明的诊断。
构建丰富的皮肤肿瘤影像图谱
第一步是汇集一个高质量的黑色素细胞肿瘤“图谱”——这一大类生长物包括无害的痣和危及生命的黑色素瘤。宾夕法尼亚大学的皮肤病理学家精心挑选并标注了 2,893 张覆盖 44 种不同黑色素细胞病变类型的显微镜图像,从常见的良性痣到罕见且侵袭性的黑色素瘤。每张图像聚焦于感兴趣区域,并根据世界卫生组织(WHO)的肿瘤分类映射为三级层次结构:先按大类分组,再按亚型,最后到具体诊断。这个结构化布局反映了专家在日常实践中思考这些病变的方式。

用医学知识而非仅仅像素来教会 AI
Melan‑Dx 超越了典型的仅基于影像的 AI,将图像与摘自权威医学来源的文本描述配对。对每种疾病类型,团队汇编了简短且结构化的条目,描述病理学家会观察到的要点——例如细胞形态、生长模式和特殊染色结果——以及这些特征如何将一种病变与另一种区分开来。大型语言模型协助组织这些信息,但由人类专家复核以确保准确性。然后,图像和文本被转换为数值“嵌入”并存入可检索的数据库。这使得 AI 不仅能识别视觉模式,还能将其与明确的诊断标准关联起来,就像医生查阅索引良好、配有插图的教科书一样。
Melan‑Dx 如何推理新病例
当 Melan‑Dx 看到新的活检图像时,它通过两个协调的分支处理图像。在图像分支中,视觉模型对图片进行编码并从图谱中检索最相似的例子,强调最匹配的样本并将它们融合成增强表示。在知识分支中,相同的图像用于调出描述可能诊断的最相关文本片段。针对每种疾病类型的特殊“专家”模块会权衡哪些参考图像和知识条目最重要,融合模块将这些线索合并。系统的训练目标是:对于正确诊断,增强后的图像和文本表示彼此靠近,而不匹配的对则被分开。这样的对比式学习帮助 AI 在数十种细微不同的肿瘤类型之间进行区分,同时以医学知识为依据。

测试准确性、安全性与效率
研究人员随后将 Melan‑Dx 与多种领先的病理学 AI 模型在多项任务中进行了比较。对于“是否为黑色素瘤?”这一基本问题,Melan‑Dx 达到最高约 87% 的准确率,优于那些仅作轻量适配或完全重新训练的模型。在一个更具挑战性的 40 分类任务(涵盖许多黑色素瘤和痣的亚型)中,它在首选答案上接近 70% 的准确率,在允许三个猜测时超过 87%,同样超过了竞争方法。系统也遵循疾病层次结构:当出现错误时,更可能混淆密切相关的病种,而非将良性与恶性类别混为一谈,这更符合真实临床的风险。在全幅切片图像——对整片组织的大型数字扫描——上,Melan‑Dx 在训练数据稀缺和充足两种情况下都提高了癌症检测能力,而且由于核心视觉模型无需重新训练,训练时间几乎缩短了 90–97%。
这对患者和医生意味着什么
对于患者来说,Melan‑Dx 的承诺不是一个无所不知的机器人医生,而是一个更智能的第二意见,能够帮助减少漏诊黑色素瘤和因过度诊断引发的不必要惊慌。对临床医生而言,该系统不仅提供标签,还给出证据:它展示类似的既往病例及支持建议的关键书面标准,使其推理更易于审查。尽管目前的工作聚焦于黑色素细胞肿瘤并依赖单一中心精心整理的数据集,但相同策略——将图像与结构化医学知识关联,并利用检索来引导 AI——可扩展到许多其他疾病。作为一种为人机协作设计的轻量且可解释的工具,Melan‑Dx 指向了一个未来:病理学家仍掌握最终决定权,但能更好地提供准确、及时的皮肤癌诊断。
引用: Yao, J., Li, S., Liang, P. et al. Melan-Dx: a knowledge-enhanced vision-language framework improves differential diagnosis of melanocytic neoplasm pathology. npj Digit. Med. 9, 171 (2026). https://doi.org/10.1038/s41746-026-02357-3
关键词: 黑色素瘤诊断, 计算病理学, 医学人工智能, 视觉语言模型, 皮肤癌检测