Clear Sky Science · zh

DermaGPT：一种具备元学习信任函数的联邦多模态框架，用于可解释的皮肤科诊断

2026-02-07 · 返回目录

为何更聪明的皮肤检查很重要

皮肤问题影响数十亿人，但许多社区几乎没有皮肤科医生。这意味着可疑的痣或皮疹可能被误判或治疗迟缓，尤其是在技术条件有限的小型诊所中。本研究提出了DermaGPT，一种旨在帮助医生通过照片识别常见皮肤癌及其他病变的人工智能系统，同时以通俗语言解释其推理并保护患者隐私。

一种新型的数字皮肤助手

DermaGPT由两部分助手构成。首先，视觉模块查看用普通智能手机或皮肤镜拍摄的近距离皮肤照片，预测所见11种常见病变中的哪一种，以及其良性或恶性的可能性。其次，独立的语言模块将这些预测转换为面向患者的解释，回答诸如病情是什么、可能有多严重以及通常考虑哪些治疗等问题。通过将“看见”和“解释”分离，设计者希望保持诊断核心的稳定性，同时允许解释模块随时间改进或替换。

为真实世界诊所而设计

与许多只能在大型昂贵服务器上运行、引起大量关注的医疗AI系统不同，DermaGPT刻意设计得轻量化。其视觉主干源自Google的视觉—语言模型，微调方式仅更改约1%的参数。这使得它足够快速且成本可承受，可在医院常见的中等显卡上运行。作者使用来自四家私人诊所、经活检确诊的图像训练系统，并在来自斯坦福的一个包含4,452张图像的独立公共数据集上进行测试。在该外部测试中，DermaGPT大约90%的时间正确识别病变类型，约93%的时间正确区分良性与恶性病变。

保持数据本地并学会信任各个站点

由于医疗图像敏感，DermaGPT采用联邦学习进行训练：每家医院将图像保留在本地，仅共享模型更新而非原始图片。然而，各医院在患者构成、相机质量和肤色上存在差异，这可能导致共享模型可靠性下降。为了解决这一点，作者加入了一个元学习的信任函数，根据不确定性、校准程度和数据漂移迹象等指标估计每个诊所更新的可靠性。在训练过程中，来自校准更好、表现更一致站点的更新会被赋予更高权重，而噪声较大的站点更新则被降权。这个“信任感知”方案提高了模型的准确性和置信度分数的可靠性，尤其在皮肤类型更为多样的最具挑战性的站点效果显著。

用日常语言解释诊断

在解释环节，DermaGPT将其预测输入到多个大型语言模型中，并比较它们的表现。它还使用一个“高级检索”模块，从精心整理的在线皮肤科资源中提取短段落，并将这些内容作为上下文提供给语言模型。四位经董事会认证的皮肤科医生对生成答案的清晰度、有用性、事实依据以及他们在临床中使用这种工具的可能性进行了评分。在所有模型中，加入该检索步骤使解释更具信息量且更少出现无支持的断言。其中一个名为DeepSeek-V3的模型表现突出，产生了评分最高的解释，同时采用较为高效的架构，在每次应答时仅激活部分神经元。

益处、注意事项与后续方向

总体而言，DermaGPT表明可以构建一个快速、准确、注重隐私且能以人类可理解方式解释自身的皮肤诊断助手。它并不能替代皮肤科医生；而是旨在帮助非专科人员进行分诊、支持咨询，并将专家风格的指导扩展到缺乏专家的诊所。作者强调仍存在一些风险——例如基于错误基础诊断而给出自信解释——并且需要更多真实世界的试验。他们计划扩展适用病种、更好覆盖罕见疾病和深色皮肤，以及加入多语言和自我监测功能。如果这些挑战得到解决，像DermaGPT这样的系统可能有助于在不同医疗环境中更公平、稳定地提供高质量皮肤护理。

引用: Hashjin, N.M., Amiri, M.H. & Najafabadi, M.K. DermaGPT a federated multimodal framework with a meta learned trust function for interpretable dermatology diagnostics. Sci Rep 16, 7959 (2026). https://doi.org/10.1038/s41598-026-38715-0

关键词: 皮肤科人工智能, 皮肤癌检测, 联邦学习, 医疗可解释人工智能, 临床决策支持