Clear Sky Science · zh

通过深度学习对卫生产品缺陷报告进行分类

· 返回目录

为什么更快发现问题药品很重要

我们大多数人都认为所使用的药品和卫生产品是安全的,并且符合严格的质量标准。然而在全球范围内,每年都有数百种药品因污染、成分错误或标签误导而被召回。每一种有缺陷的产品都可能对患者构成威胁。监管者必须快速阅读并解释成千上万份缺陷报告,以决定哪些需要紧急处理。本文介绍了一种深度学习系统如何构建,以帮助卫生主管部门更快、更一致地对这些报告进行分类,从而将精力集中在对公共健康风险最大的事件上。

目前产品问题如何被报告

当在药品或其他卫生产品中发现可能的缺陷时,会向监管机构提交一份简短的书面报告。这些报告可以描述多种问题:药瓶中的玻璃碎片、药丸中含有错误成分、包装渗漏或可能导致用药错误的标签。在新加坡,卫生科学局使用一种为本地需要调整过的标准医学词典,将每份报告归入若干特定类别之一,例如微生物污染或违反广告规定等。分配给报告的类别有助于确定问题的严重性以及处理的紧迫程度。目前,受过训练的官员会逐一阅读每份报告并手工分配标签。随着报告数量增加,这项工作既缓慢又复杂,而且可能不够一致。

Figure 1
Figure 1.

教计算机阅读缺陷报告

研究人员旨在构建一个能支持这些官员而非取代他们的人工智能系统。他们收集了2010年至2021年间收到的13,830份缺陷报告,涵盖药品、疫苗、补充剂和化妆品。一组经验丰富的药剂师仔细审阅并使用21个最常见的缺陷类别为每份报告打标签,这21类合计覆盖了超过99%的案例。团队然后以一种名为BERT的流行语言模型作为系统核心,BERT擅长在语境中理解词义。通过在这批带标签的数据上对BERT进行微调,他们创建了一个工具——称为MedDefects‑BERT——能够阅读报告的标题和描述并预测最可能的缺陷类别。

系统性能如何

在对未见过的报告进行测试时,MedDefects‑BERT在86%的情况下与专家的首选类别一致。如果允许系统给出三个最可能的类别,其建议中包含正确类别的比例达到96%。这很重要,因为真实的官员可以仅审查一份简短的建议清单,而不是从头开始判断。系统对那些训练样本更多的类别表现更好,这在机器学习中很常见。即便如此,允许最多三个建议标签后,所有类别的性能都提高到70%以上,包括较少见的类别。模型的置信度分数——介于0到1之间的数值,表示其确信程度——与其正确率高度相关。通过设置置信度阈值,团队展示了他们可以将“确定”预测的准确率提高到约91%,同时将一小部分案例标记为“未定”以供人工进一步审查。

Figure 2
Figure 2.

审视模型决策的内部

作者还解决了在安全关键领域对人工智能的一个关键关切:透明性。他们使用可视化工具展示了同一缺陷类型的报告在模型的内部“文档意义图”中会聚集在一起,而被误分类的报告则位于簇的边缘。在单词层面,他们应用了一种称为SHAP的方法,突出显示报告中哪些词汇促使模型倾向于某一类别。例如,与真菌或霉菌相关的词强烈影响了对微生物污染的预测,而“沉淀”或“沉积物”等词则支持与产品沉积有关的类别。这些解释为官员提供了一种快速方式来查看模型为何给出建议,并判断在语境中是否合理。

让系统更智能、更高效

为了在不增加大量计算成本的情况下进一步提升性能,团队采用了一种称为深度提示调优的技术。他们不是改变模型的所有内部参数,而是在每一层添加可训练的小“前缀”,以温和地引导模型朝特定任务前进。将传统的微调与这些提示结合起来,在超过一半的缺陷类别中提高了系统的准确性,并增强了其总体检出能力。对2022年更新报告的测试表明,系统的准确性随时间保持稳定,这表明其对缺陷报告的理解不会很快过时。

对患者和监管者意味着什么

研究表明,一个设计良好的语言模型可以显著帮助监管机构筛查大量卫生产品缺陷报告,标准化案例分类,并更快地突出高风险问题。由于系统还解释了哪些词句推动了其建议,人类专家仍然掌握最终决策权。通过进一步改进——例如处理一份报告中的多种缺陷类型并扩展到更稀有的类别——类似工具有望加强全球药品质量监测、减少召回危险产品的延迟,从而最终为患者提供更好的保护。

引用: Sancenon, V., Huang, Y., Zou, L. et al. Classification of health product defect reports by deep learning. Sci Rep 16, 13528 (2026). https://doi.org/10.1038/s41598-026-43961-3

关键词: 药品安全, 药品质量, 深度学习, 监管监测, 自然语言处理